論文の概要: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned
Decision
- arxiv url: http://arxiv.org/abs/2403.06221v1
- Date: Sun, 10 Mar 2024 13:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:06:44.614338
- Title: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned
Decision
- Title(参考訳): TRAD:ステップワイズ思考検索と適応決定によるLDMエージェントの強化
- Authors: Ruiwen Zhou, Yingxuan Yang, Muning Wen, Ying Wen, Wenhao Wang,
Chunling Xi, Guoqiang Xu, Yong Yu, Weinan Zhang
- Abstract要約: 大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。
本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。
TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。
そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
- 参考スコア(独自算出の注目度): 32.24857534147114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous large language model (LLM) agents have been built for different
tasks like web navigation and online shopping due to LLM's wide knowledge and
text-understanding ability. Among these works, many of them utilize in-context
examples to achieve generalization without the need for fine-tuning, while few
of them have considered the problem of how to select and effectively utilize
these examples. Recently, methods based on trajectory-level retrieval with task
meta-data and using trajectories as in-context examples have been proposed to
improve the agent's overall performance in some sequential decision making
tasks. However, these methods can be problematic due to plausible examples
retrieved without task-specific state transition dynamics and long input with
plenty of irrelevant context. In this paper, we propose a novel framework
(TRAD) to address these issues. TRAD first conducts Thought Retrieval,
achieving step-level demonstration selection via thought matching, leading to
more helpful demonstrations and less irrelevant input noise. Then, TRAD
introduces Aligned Decision, complementing retrieved demonstration steps with
their previous or subsequent steps, which enables tolerance for imperfect
thought and provides a choice for balance between more context and less noise.
Extensive experiments on ALFWorld and Mind2Web benchmarks show that TRAD not
only outperforms state-of-the-art models but also effectively helps in reducing
noise and promoting generalization. Furthermore, TRAD has been deployed in
real-world scenarios of a global business insurance company and improves the
success rate of robotic process automation.
- Abstract(参考訳): 多くの大規模言語モデル(LLM)エージェントが、LLMの幅広い知識とテキスト理解能力のために、Webナビゲーションやオンラインショッピングといった様々なタスクのために構築されている。
これらの研究のうち、多くは文脈内例を用いて微調整を必要とせず一般化を実現しているが、これらの例を選択・有効活用する方法の問題を考える者は少ない。
近年,タスクのメタデータを用いた軌道レベルの検索や,インコンテキストの具体例としてトラジェクタを使用する手法が提案され,シーケンシャルな意思決定タスクにおけるエージェントの全体的な性能向上が図られている。
しかし、これらの手法はタスク固有の状態遷移ダイナミクスや、多くの無関係なコンテキストを持つ長い入力を伴わずに検索可能な例によって問題となる可能性がある。
本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。
TRADはまずThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現し、より有用なデモと、無関係な入力ノイズを発生させる。
次に、TRADはAligned Decisionを導入し、検索したデモステップを前または後のステップと補完し、不完全な思考に対する寛容を可能にし、より多くのコンテキストと少ないノイズのバランスをとる選択を提供する。
ALFWorldとMind2Webベンチマークの大規模な実験によると、TRADは最先端モデルを上回るだけでなく、ノイズの低減や一般化の促進にも有効である。
さらに、TRADはグローバルビジネス保険会社の現実シナリオに展開され、ロボットプロセスの自動化の成功率を改善している。
関連論文リスト
- MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents [28.419007116364668]
MLLMエージェントは、マルチモーダルなタスク関連軌道データを取得することで、複雑なエンボディされたタスクの可能性を実証する。
現在の検索手法は、主に軌跡におけるテキストや視覚的手がかりの表面レベルでの類似性に注目し、その特定のタスクに対する有効性を無視している。
本稿では,MLLMレシーバを微調整するためのインタラクションデータを活用することで,組込みエージェントの性能を向上させる新しい手法であるMLLM as ReTriever (MART)を提案する。
論文 参考訳(メタデータ) (2024-10-04T14:10:39Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。
これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。
これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文 参考訳(メタデータ) (2024-02-18T17:10:07Z) - Misconfidence-based Demonstration Selection for LLM In-Context Learning [0.0]
大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。
この問題に対する現在のアプローチは、難易度の高い外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかである。
In-Context Reflection (ICR) と呼ばれる新しい手法を提案し、これらの課題を克服する。
論文 参考訳(メタデータ) (2024-01-12T00:11:24Z) - OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking [16.057622631156164]
大規模言語モデル (LLM) は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。
従来,Small Language Models (SLMs) の可能性を,大規模言語に対する費用対効果の代替手段として活用するための様々なアプローチが検討されてきた。
本研究では,計算効率の向上とタスク性能の向上を目的とした新しいSLM/LLMルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:30:55Z) - LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting Strategy for Document-Level Event Argument Extraction [12.673710691468264]
本稿では,Huristic-Driven Link-of-Alogy (HD-LoA)を導入し,サンプル選択の課題に対処する。
人間の類推的推論にインスパイアされ,LLMが新たな状況に対処できるリンク・オブ・アナロジー・プロンプトを提案する。
実験により,本手法は文書レベルのAEデータセット上で,既存のプロンプト手法や数発の教師付き学習手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-11T12:05:01Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。