論文の概要: ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy
- arxiv url: http://arxiv.org/abs/2403.14589v3
- Date: Mon, 1 Apr 2024 17:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 07:58:37.255760
- Title: ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy
- Title(参考訳): ActRe: 言語エージェントがデータオートノミーのトレーニングを楽しむ時
- Authors: Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu,
- Abstract要約: A$3$TはAutonomousを実現するフレームワークである。
法律の様式における代理人軌道の
AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
- 参考スコア(独自算出の注目度): 47.42940885853956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotation or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.
- Abstract(参考訳): 言語エージェントは、基礎モデルによる推論により、自律的な意思決定能力を示した。
近年,多段階推論と行動軌跡をトレーニングデータとして,言語エージェントのパフォーマンス向上のための訓練が試みられている。
しかし、このような軌道の収集には、人工的なアノテーションや様々なプロンプトフレームワークの実装など、かなりの人的努力が必要である。
本稿では,A$^3$Tを提案する。A$^3$Tは,エージェントトラジェクトリの自律アノテーションをReActスタイルで実現するフレームワークである。
中心的な役割は、任意のアクションの理由を説明するActReプロンプトエージェントである。
外部アクションをランダムにサンプリングする場合、ReActスタイルのエージェントはActReエージェントにアクションを問い合わせ、そのテキストの合理性を得る。
新規な軌道は、ActReからサンプル化された作用への後続の推論を前もって合成される。
このようにして、ReActスタイルのエージェントは、失敗したタスクに対して複数のトラジェクトリを実行し、失敗したトラジェクトリを補完して、対照的な自己学習を行う。
二項化報酬を持つポリシー勾配法によって実現され、蓄積された軌道による対照的な自己学習は、言語エージェントによる複数ラウンドの自己改善のための閉ループを促進する。
我々はオープンソースのMistral-7B-Instruct-v0.2を用いたQLoRA微調整実験を行った。
AlfWorldでは、A$^3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
WebShopでは、A$^3$Tエージェントの1ショットのパフォーマンスは人間の平均と一致し、4ラウンドの反復的な改善は、人間の専門家に近づくパフォーマンスに繋がる。
A$^3$Tエージェントは、GPT-4、高度なエージェントフレームワーク、完全に微調整されたLLMなど、既存の技術よりも大幅に優れていた。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。