論文の概要: FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments
- arxiv url: http://arxiv.org/abs/2604.25135v1
- Date: Tue, 28 Apr 2026 02:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.666626
- Title: FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments
- Title(参考訳): FAMA: 対話型ツール利用環境におけるオープンソースLLMのためのフェールアウェアなメタエージェントフレームワーク
- Authors: Amir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral,
- Abstract要約: 大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.3427704389541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.
- Abstract(参考訳): 大規模言語モデルは、外部環境の変化に影響を及ぼすことができる自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、実際の顧客中心の問題解決シナリオをシミュレートする会話ベンチマークでは、これらのエージェントは誤った意思決定のカスケード効果のために頻繁に失敗する。
これらの課題は、より小さいパラメータサイズ、限られたコンテキストウインドウ、制約付き推論予算を持つオープンソースのLLMに対して特に顕著であり、エージェント設定におけるエラーの蓄積の増加に寄与する。
これらの課題に対処するために、FAMA(Failure-Aware Meta-Agentic)フレームワークを紹介します。
FAMAは、まず、ベースラインエージェントからの障害軌跡を分析し、最も一般的なエラーを識別する。次に、意思決定ステップの前にツール使用エージェントのターゲットコンテキストを注入することで、これらの障害に対処するように調整された、特別なエージェントの最小限のサブセットを活性化するオーケストレーションメカニズムを使用する。
オープンソースのLLMでの実験では、標準ベースラインよりも27%パフォーマンスが評価モードで向上している。
これらの結果は、現実の会話シナリオをシミュレートする信頼性の高い多目的LDMエージェントを構築する上で、特殊なエージェントによるコンテキストのキュレーションが重要な設計原則であることを示している。
関連論文リスト
- MIRROR: A Multi-Agent Framework with Iterative Adaptive Revision and Hierarchical Retrieval for Optimization Modeling in Operations Research [15.28095645151852]
MIRRORは、操作研究のための微調整のないエンドツーエンドのマルチエージェントフレームワークである。
自然言語の最適化問題を数学的モデルや解法コードに変換する。
実験により、MIRRORは標準的なOperations Researchベンチマークの既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-03T09:46:56Z) - MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。
リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。
提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T03:37:33Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。