論文の概要: Learning From Failure: Integrating Negative Examples when Fine-tuning
Large Language Models as Agents
- arxiv url: http://arxiv.org/abs/2402.11651v1
- Date: Sun, 18 Feb 2024 17:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:59:03.239031
- Title: Learning From Failure: Integrating Negative Examples when Fine-tuning
Large Language Models as Agents
- Title(参考訳): 失敗から学ぶ: 大きな言語モデルをエージェントとして微調整するとき、否定的な例を統合する
- Authors: Renxi Wang, Haonan Li, Xudong Han, Yixuan Zhang, Timothy Baldwin
- Abstract要約: 大規模言語モデル(LLM)は、検索エンジンのようなツールを介して環境と対話するエージェントとして機能することに成功した。
LLMは、トレーニングやアライメントにおいてツールの使用に特化せず、エージェントとしての有効性を制限している。
本稿では,大規模な言語モデルが適切なデータクリーニングと微調整戦略によって失敗から学習できることを論じる。
- 参考スコア(独自算出の注目度): 44.13904794106225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have achieved success in acting as agents, which
interact with environments through tools like search engines. However, LLMs are
not optimized specifically for tool use during training or alignment, limiting
their effectiveness as agents. To resolve this problem, previous work has
collected interaction trajectories between GPT-4 and environments, and
fine-tuned smaller models with them. As part of this, the standard approach has
been to simply discard trajectories that do not finish the task successfully,
which, on the one hand, leads to a significant waste of data and resources, and
on the other hand, has the potential to limit the possible optimization paths
during fine-tuning. In this paper, we contend that large language models can
learn from failures through appropriate data cleaning and fine-tuning
strategies. We conduct experiments on mathematical reasoning, multi-hop
question answering, and strategic question answering tasks. Experimental
results demonstrate that compared to solely using positive examples,
incorporating negative examples enhances model performance by a large margin.
- Abstract(参考訳): 大規模言語モデル(llm)は、検索エンジンのようなツールを通じて環境と対話するエージェントとして機能することに成功した。
しかし、LSMはトレーニングやアライメントにおいてツールの使用に特化せず、エージェントとしての有効性を制限している。
この問題を解決するために、従来の研究はGPT-4と環境の間の相互作用軌跡を収集し、それらを微調整した小さなモデルを開発した。
これの一環として、標準的なアプローチでは、タスクを正常に終了しないトラジェクトリを単に破棄し、一方、データやリソースのかなりの無駄を招き、他方、微調整時に可能な最適化パスを制限する可能性がある。
本稿では,大規模な言語モデルが適切なデータクリーニングと微調整戦略によって失敗から学習できることを論じる。
数学的推論,マルチホップ質問応答,戦略的質問応答タスクについて実験を行う。
実験結果から, 正の例のみを用いた場合と比較して, 負の例を取り入れた場合, モデル性能が大きく向上することが示された。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。
本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Contrastive Trajectory Similarity Learning with Dual-Feature Attention [24.445998309807965]
トレイ類似度尺度は、トラジェクトリデータベースにおけるクエリ述語として機能する。
そこで本研究では,TrajCLという学習に基づくトラジェクトリモデリング手法を提案する。
TrajCLは、最先端の軌跡類似度測定よりも一貫して、はるかに正確で高速である。
論文 参考訳(メタデータ) (2022-10-11T05:25:14Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。