論文の概要: Weak-Link Optimization for Multi-Agent Reasoning and Collaboration
- arxiv url: http://arxiv.org/abs/2604.15972v1
- Date: Fri, 17 Apr 2026 11:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.899964
- Title: Weak-Link Optimization for Multi-Agent Reasoning and Collaboration
- Title(参考訳): マルチエージェント推論と協調のための弱リンク最適化
- Authors: Haoyu Bian, Chaoning Zhang, Jiaquan Zhang, Xingyao Li, Yuanfang Guo, Wei Dong, Yang Yang,
- Abstract要約: LLM駆動のマルチエージェントフレームワークは、マルチロールコラボレーションを通じて複雑な推論タスクに対処する。
既存のアプローチは、個々のエージェントエラーがコラボレーションによって増幅される、推論不安定に悩まされることが多い。
性能制限エージェントの識別と強化のためのフレームワークであるWORCを提案する。
- 参考スコア(独自算出の注目度): 24.206703927810825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-driven multi-agent frameworks address complex reasoning tasks through multi-role collaboration. However, existing approaches often suffer from reasoning instability, where individual agent errors are amplified through collaboration, undermining overall performance. Current research mainly focuses on enhancing high-capability agents or suppressing unreliable outputs to improve framework effectiveness, while systematic identification and reinforcement of performance-limiting agents receive less attention. To address this gap, we propose WORC, a \underline{w}eak-link \underline{o}ptimization framework for multi-agent \underline{r}easoning and \underline{c}ollaboration, grounded in the weak-link principle. WORC follows a two-stage workflow. In the weak agent localization stage, task features are constructed, and a meta-learning-based weight predictor trained on optimal configurations identified by swarm intelligence algorithms (SIAs) enables zero-shot mapping from these features to agent performance weights, where the agent with the lowest predicted weight is identified as the weak agent. In the weak-link optimization stage, an uncertainty-driven allocation strategy assigns additional reasoning budgets to weak agents, with lower predicted weights leading to larger repeated-sampling quotas to compensate for reliability deficiencies. Experimental results show that WORC achieves an average accuracy of 82.2\% on reasoning benchmarks while improving framework stability and cross-architecture generalization, suggesting that compensating for weak links, rather than reinforcing strengths alone, enhances the robustness of multi-agent systems.
- Abstract(参考訳): LLM駆動のマルチエージェントフレームワークは、マルチロールコラボレーションを通じて複雑な推論タスクに対処する。
しかしながら、既存のアプローチは、個々のエージェントエラーがコラボレーションによって増幅され、全体的なパフォーマンスを損なうような、推論の不安定さに悩まされることが多い。
現在の研究は、高機能エージェントの強化や信頼性の低いアウトプットの抑制に主眼を置いており、一方、性能制限エージェントの体系的識別と強化は、あまり注目されない。
このギャップに対処するために、弱リンク原理を基礎としたマルチエージェント \underline{r}easoning と \underline{c}olaboration のための WORC を提案する。
WORCは2段階のワークフローに従う。
弱いエージェントローカライゼーション段階において、タスク特徴を構築し、Swarm Intelligence Algorithm(SIAs)によって識別された最適な設定に基づいて訓練されたメタラーニングベースの重み予測器により、これらの特徴からエージェント性能重みへのゼロショットマッピングが可能となり、最も低い予測重量を持つエージェントが弱いエージェントとして特定される。
弱いリンク最適化の段階では、不確実性駆動のアロケーション戦略は、弱いエージェントにさらなる推論予算を割り当てる。
実験結果から,WORCは,フレームワークの安定性とクロスアーキテクチャの一般化を改善しつつ,推論ベンチマークの平均精度82.2\%を実現し,強度のみを補強するのではなく,弱いリンクを補うことで,マルチエージェントシステムの堅牢性を高めることが示唆された。
関連論文リスト
- AgentCollab: A Self-Evaluation-Driven Collaboration Paradigm for Efficient LLM Agents [37.232397795331444]
我々は,エージェント実行中に異なる推論能力を持つモデルを動的にコーディネートする,自己駆動型協調推論フレームワークであるAgenCollabを提案する。
外部ルーティングモジュールに頼る代わりに、このフレームワークはエージェント自身の自己反射信号を使用して、現在の推論軌道が有意義な進歩を遂げているかどうかを判断する。
論文 参考訳(メタデータ) (2026-03-27T03:07:34Z) - Adaptive Robust Estimator for Multi-Agent Reinforcement Learning [27.595086716369483]
協調推論のための頑健な多エージェント強化学習フレームワークを提案する。
Dual-Agent Answer-Critique-Rewrite (DACR)とAdaptive Robust Estimator (ARE)の2つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2026-03-23T04:51:15Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。
本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。
実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文 参考訳(メタデータ) (2025-09-18T16:03:50Z) - Bridging the Capability Gap: Joint Alignment Tuning for Harmonizing LLM-based Multi-Agent Systems [43.960406518628865]
マルチエージェントシステムは、特殊エージェント間の責任を分割することで複雑なタスクを解決する。
既存のほとんどの手法は、通常、これらのエージェントを独立に微調整し、調整が不十分な能力のギャップを生じさせる。
エージェント協調を反復的アライメントにより改善する多エージェント共同調整フレームワークMOATを提案する。
論文 参考訳(メタデータ) (2025-09-11T17:15:45Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - DSDF: An approach to handle stochastic agents in collaborative
multi-agent reinforcement learning [0.0]
ロボットの機能低下や老化によって引き起こされるエージェントの真偽が、協調の不確実性にどのように寄与するかを示す。
DSDFは不確実性に応じてエージェントの割引係数を調整し,その値を用いて個々のエージェントのユーティリティネットワークを更新する。
論文 参考訳(メタデータ) (2021-09-14T12:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。