論文の概要: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned
Decision
- arxiv url: http://arxiv.org/abs/2403.06221v1
- Date: Sun, 10 Mar 2024 13:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:06:44.614338
- Title: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned
Decision
- Title(参考訳): TRAD:ステップワイズ思考検索と適応決定によるLDMエージェントの強化
- Authors: Ruiwen Zhou, Yingxuan Yang, Muning Wen, Ying Wen, Wenhao Wang,
Chunling Xi, Guoqiang Xu, Yong Yu, Weinan Zhang
- Abstract要約: 大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。
本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。
TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。
そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
- 参考スコア(独自算出の注目度): 32.24857534147114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous large language model (LLM) agents have been built for different
tasks like web navigation and online shopping due to LLM's wide knowledge and
text-understanding ability. Among these works, many of them utilize in-context
examples to achieve generalization without the need for fine-tuning, while few
of them have considered the problem of how to select and effectively utilize
these examples. Recently, methods based on trajectory-level retrieval with task
meta-data and using trajectories as in-context examples have been proposed to
improve the agent's overall performance in some sequential decision making
tasks. However, these methods can be problematic due to plausible examples
retrieved without task-specific state transition dynamics and long input with
plenty of irrelevant context. In this paper, we propose a novel framework
(TRAD) to address these issues. TRAD first conducts Thought Retrieval,
achieving step-level demonstration selection via thought matching, leading to
more helpful demonstrations and less irrelevant input noise. Then, TRAD
introduces Aligned Decision, complementing retrieved demonstration steps with
their previous or subsequent steps, which enables tolerance for imperfect
thought and provides a choice for balance between more context and less noise.
Extensive experiments on ALFWorld and Mind2Web benchmarks show that TRAD not
only outperforms state-of-the-art models but also effectively helps in reducing
noise and promoting generalization. Furthermore, TRAD has been deployed in
real-world scenarios of a global business insurance company and improves the
success rate of robotic process automation.
- Abstract(参考訳): 多くの大規模言語モデル(LLM)エージェントが、LLMの幅広い知識とテキスト理解能力のために、Webナビゲーションやオンラインショッピングといった様々なタスクのために構築されている。
これらの研究のうち、多くは文脈内例を用いて微調整を必要とせず一般化を実現しているが、これらの例を選択・有効活用する方法の問題を考える者は少ない。
近年,タスクのメタデータを用いた軌道レベルの検索や,インコンテキストの具体例としてトラジェクタを使用する手法が提案され,シーケンシャルな意思決定タスクにおけるエージェントの全体的な性能向上が図られている。
しかし、これらの手法はタスク固有の状態遷移ダイナミクスや、多くの無関係なコンテキストを持つ長い入力を伴わずに検索可能な例によって問題となる可能性がある。
本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。
TRADはまずThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現し、より有用なデモと、無関係な入力ノイズを発生させる。
次に、TRADはAligned Decisionを導入し、検索したデモステップを前または後のステップと補完し、不完全な思考に対する寛容を可能にし、より多くのコンテキストと少ないノイズのバランスをとる選択を提供する。
ALFWorldとMind2Webベンチマークの大規模な実験によると、TRADは最先端モデルを上回るだけでなく、ノイズの低減や一般化の促進にも有効である。
さらに、TRADはグローバルビジネス保険会社の現実シナリオに展開され、ロボットプロセスの自動化の成功率を改善している。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。
これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。
これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文 参考訳(メタデータ) (2024-02-18T17:10:07Z) - OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking [16.057622631156164]
大規模言語モデル (LLM) は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。
従来,Small Language Models (SLMs) の可能性を,大規模言語に対する費用対効果の代替手段として活用するための様々なアプローチが検討されてきた。
本研究では,計算効率の向上とタスク性能の向上を目的とした新しいSLM/LLMルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:30:55Z) - LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting Strategy for Document-Level Event Argument Extraction [12.673710691468264]
本稿では,Huristic-Driven Link-of-Alogy (HD-LoA)を導入し,サンプル選択の課題に対処する。
人間の類推的推論にインスパイアされ,LLMが新たな状況に対処できるリンク・オブ・アナロジー・プロンプトを提案する。
実験により,本手法は文書レベルのAEデータセット上で,既存のプロンプト手法や数発の教師付き学習手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-11T12:05:01Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。