論文の概要: FireAct: Toward Language Agent Fine-tuning
- arxiv url: http://arxiv.org/abs/2310.05915v1
- Date: Mon, 9 Oct 2023 17:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 16:59:20.940928
- Title: FireAct: Toward Language Agent Fine-tuning
- Title(参考訳): FireAct: 言語エージェントの微調整を目指して
- Authors: Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik
Narasimhan, Shunyu Yao
- Abstract要約: 我々は、言語エージェントを得るための微調整LMの見落としの方向について論じる。
GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。
本稿では,複数のタスクからのトラジェクトリとメソッドのプロンプトを併用した微調整LMの新たなアプローチであるFireActを提案する。
- 参考スコア(独自算出の注目度): 63.06306936820456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts have augmented language models (LMs) with external tools or
environments, leading to the development of language agents that can reason and
act. However, most of these agents rely on few-shot prompting techniques with
off-the-shelf LMs. In this paper, we investigate and argue for the overlooked
direction of fine-tuning LMs to obtain language agents. Using a setup of
question answering (QA) with a Google search API, we explore a variety of base
LMs, prompting methods, fine-tuning data, and QA tasks, and find language
agents are consistently improved after fine-tuning their backbone LMs. For
example, fine-tuning Llama2-7B with 500 agent trajectories generated by GPT-4
leads to a 77% HotpotQA performance increase. Furthermore, we propose FireAct,
a novel approach to fine-tuning LMs with trajectories from multiple tasks and
prompting methods, and show having more diverse fine-tuning data can further
improve agents. Along with other findings regarding scaling effects,
robustness, generalization, efficiency and cost, our work establishes
comprehensive benefits of fine-tuning LMs for agents, and provides an initial
set of experimental designs, insights, as well as open questions toward
language agent fine-tuning.
- Abstract(参考訳): 最近の取り組みでは、外部ツールや環境を備えた拡張言語モデル(lms)があり、推論や動作が可能な言語エージェントの開発に繋がる。
しかし、これらのエージェントのほとんどは、市販のLMを用いた数発のプロンプト技術に依存している。
本稿では,言語エージェントを得るための微調整LMの見落とし方向について検討し,議論する。
Googleの検索APIを使った質問応答(QA)のセットアップを用いて、様々な基本LMを探索し、メソッド、微調整データ、QAタスクを誘導し、バックボーンLMを微調整した後、言語エージェントが一貫して改善されていることを見つける。
例えば、GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。
さらに,複数のタスクのトラジェクタを用いたlmsの微調整手法であるfireactを提案し,より多様な微調整データを持つことでエージェントをさらに改善できることを示す。
スケーリング効果,ロバスト性,一般化,効率,コストに関する他の知見とともに,エージェントのための微調整LMの包括的メリットを確立し,実験的な設計,洞察,および言語エージェントの微調整に対するオープンな質問のセットを提供する。
関連論文リスト
- KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Learning to Use Tools via Cooperative and Interactive Agents [61.662788490607475]
ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。
既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。
本研究では,協調型対話型エージェントフレームワークであるConAgentsを提案し,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化する。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient
Optimization [103.28404907655539]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Asking Before Action: Gather Information in Embodied Decision Making
with Language Models [9.167993825872102]
本研究では,Large Language Models (LLMs) が不慣れな環境にデプロイした場合,必要な情報を効率的に収集する上で,課題に直面していることを示す。
Askingtextit Before Action (ABA) は、自然言語を用いて外部ソースを積極的にクエリする手法である。
提案手法を具体化意思決定ベンチマークであるALFWorldで実証的に評価し,本手法がベースラインLLMエージェントを40ドル以上超えることを示した。
論文 参考訳(メタデータ) (2023-05-25T04:05:08Z) - DERA: Enhancing Large Language Model Completions with Dialog-Enabled
Resolving Agents [5.562984399879218]
大規模言語モデル(LLM)は多くの自然言語理解タスクに有用なツールとして登場した。
本稿では,対話型解決エージェント(DERA)について述べる。
DERAは、LPMの会話能力の増加、すなわちGPT-4によって実現されたパラダイムである。
モデルがフィードバックを伝達し、反復的に出力を改善するための、シンプルで解釈可能なフォーラムを提供する。
論文 参考訳(メタデータ) (2023-03-30T00:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。