論文の概要: Learning From Failure: Integrating Negative Examples when Fine-tuning
Large Language Models as Agents
- arxiv url: http://arxiv.org/abs/2402.11651v1
- Date: Sun, 18 Feb 2024 17:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:59:03.239031
- Title: Learning From Failure: Integrating Negative Examples when Fine-tuning
Large Language Models as Agents
- Title(参考訳): 失敗から学ぶ: 大きな言語モデルをエージェントとして微調整するとき、否定的な例を統合する
- Authors: Renxi Wang, Haonan Li, Xudong Han, Yixuan Zhang, Timothy Baldwin
- Abstract要約: 大規模言語モデル(LLM)は、検索エンジンのようなツールを介して環境と対話するエージェントとして機能することに成功した。
LLMは、トレーニングやアライメントにおいてツールの使用に特化せず、エージェントとしての有効性を制限している。
本稿では,大規模な言語モデルが適切なデータクリーニングと微調整戦略によって失敗から学習できることを論じる。
- 参考スコア(独自算出の注目度): 44.13904794106225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have achieved success in acting as agents, which
interact with environments through tools like search engines. However, LLMs are
not optimized specifically for tool use during training or alignment, limiting
their effectiveness as agents. To resolve this problem, previous work has
collected interaction trajectories between GPT-4 and environments, and
fine-tuned smaller models with them. As part of this, the standard approach has
been to simply discard trajectories that do not finish the task successfully,
which, on the one hand, leads to a significant waste of data and resources, and
on the other hand, has the potential to limit the possible optimization paths
during fine-tuning. In this paper, we contend that large language models can
learn from failures through appropriate data cleaning and fine-tuning
strategies. We conduct experiments on mathematical reasoning, multi-hop
question answering, and strategic question answering tasks. Experimental
results demonstrate that compared to solely using positive examples,
incorporating negative examples enhances model performance by a large margin.
- Abstract(参考訳): 大規模言語モデル(llm)は、検索エンジンのようなツールを通じて環境と対話するエージェントとして機能することに成功した。
しかし、LSMはトレーニングやアライメントにおいてツールの使用に特化せず、エージェントとしての有効性を制限している。
この問題を解決するために、従来の研究はGPT-4と環境の間の相互作用軌跡を収集し、それらを微調整した小さなモデルを開発した。
これの一環として、標準的なアプローチでは、タスクを正常に終了しないトラジェクトリを単に破棄し、一方、データやリソースのかなりの無駄を招き、他方、微調整時に可能な最適化パスを制限する可能性がある。
本稿では,大規模な言語モデルが適切なデータクリーニングと微調整戦略によって失敗から学習できることを論じる。
数学的推論,マルチホップ質問応答,戦略的質問応答タスクについて実験を行う。
実験結果から, 正の例のみを用いた場合と比較して, 負の例を取り入れた場合, モデル性能が大きく向上することが示された。
関連論文リスト
- Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned
Decision [32.24857534147114]
大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。
本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。
TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。
そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
論文 参考訳(メタデータ) (2024-03-10T13:58:38Z) - Learning to Use Tools via Cooperative and Interactive Agents [61.662788490607475]
ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。
既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。
本研究では,協調型対話型エージェントフレームワークであるConAgentsを提案し,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化する。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM
Agents [52.82856458995437]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Contrastive Trajectory Similarity Learning with Dual-Feature Attention [24.445998309807965]
トレイ類似度尺度は、トラジェクトリデータベースにおけるクエリ述語として機能する。
そこで本研究では,TrajCLという学習に基づくトラジェクトリモデリング手法を提案する。
TrajCLは、最先端の軌跡類似度測定よりも一貫して、はるかに正確で高速である。
論文 参考訳(メタデータ) (2022-10-11T05:25:14Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。