論文の概要: Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent
- arxiv url: http://arxiv.org/abs/2503.02519v1
- Date: Tue, 04 Mar 2025 11:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:58.390636
- Title: Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent
- Title(参考訳): 大規模言語モデルエージェントのためのジェネレータ・アシスタント・ステップワイズ・ロールバック・フレームワーク
- Authors: Xingzuo Li, Kehai Chen, Yunfei Long, Xuefeng Bai, Yong Xu, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは通常、ステップバイステップの推論フレームワークを採用し、与えられたタスクを達成するための思考と行動のプロセスをインターリーブする。
本稿では,ジェネレータ・アシスタント・ステップワイド・ロールバック(GA-Rollback)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.789871460983452
- License:
- Abstract: Large language model (LLM) agents typically adopt a step-by-step reasoning framework, in which they interleave the processes of thinking and acting to accomplish the given task. However, this paradigm faces a deep-rooted one-pass issue whereby each generated intermediate thought is plugged into the trajectory regardless of its correctness, which can cause irreversible error propagation. To address the issue, this paper proposes a novel framework called Generator-Assistant Stepwise Rollback (GA-Rollback) to induce better decision-making for LLM agents. Particularly, GA-Rollback utilizes a generator to interact with the environment and an assistant to examine each action produced by the generator, where the assistant triggers a rollback operation upon detection of incorrect actions. Moreover, we introduce two additional strategies tailored for the rollback scenario to further improve its effectiveness. Extensive experiments show that GA-Rollback achieves significant improvements over several strong baselines on three widely used benchmarks. Our analysis further reveals that GA-Rollback can function as a robust plug-and-play module, integrating seamlessly with other methods.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは通常、ステップバイステップの推論フレームワークを採用し、与えられたタスクを達成するための思考と行動のプロセスをインターリーブする。
しかし、このパラダイムは、それぞれの生成した中間思考をその正確性にかかわらず軌道に差し込むという深いルートの1パス問題に直面しており、これは不可逆的なエラー伝播を引き起こす可能性がある。
この問題に対処するため,本研究ではジェネレータ・アシスタント・ステップワイド・ロールバック(GA-Rollback)と呼ばれる新しいフレームワークを提案する。
特にGAロールバックは、ジェネレータを使用して環境と対話し、アシスタントはジェネレータによって生成された各アクションを調べ、アシスタントは誤ったアクションを検出するとロールバック操作をトリガーする。
さらに、ロールバックシナリオに適した2つの追加戦略を導入し、その効果をさらに改善する。
GA-Rollbackは、広く使用されている3つのベンチマークに対して、いくつかの強力なベースラインよりも大幅に改善されている。
さらに,GA-Rollbackは,他のメソッドとシームレスに統合された堅牢なプラグイン・アンド・プレイモジュールとして機能することを明らかにする。
関連論文リスト
- Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - CtrlA: Adaptive Retrieval-Augmented Generation via Inherent Control [26.21425058462886]
大規模言語モデル(LLM)の幻覚を、検索された外部知識で緩和するための有望な解決策として、検索拡張世代(RAG)が出現している。
本稿では,適応的なRAGを表現的視点から解決し,固有な制御ベースフレームワークであるnameを開発するための最初の試みについて述べる。
実験により、名前は様々なタスクにおいて既存の適応RAG法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-29T03:17:16Z) - Fleet of Agents: Coordinated Problem Solving with Large Language Models using Genetic Particle Filtering [10.167121757937062]
Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして、大きな言語モデルを利用するフレームワークである。
FoAは多数のエージェントを発生させ、それぞれが自律的に探索し、選択フェーズが続く。
2つのベンチマークタスクである"Game of 24"と"Mini-Crosswords"を使ってFoAを実験的に検証する。
論文 参考訳(メタデータ) (2024-05-07T09:36:23Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。