論文の概要: Interactive Learning for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2509.26306v2
- Date: Wed, 01 Oct 2025 01:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.810783
- Title: Interactive Learning for LLM Reasoning
- Title(参考訳): LLM推論のための対話型学習
- Authors: Hehai Lin, Shilei Cao, Minzhi Li, Sudong Wang, Haotian Wu, Linyi Yang, Juepeng Zheng, Chengwei Qin,
- Abstract要約: 本稿では,大規模言語モデルの独立した問題解決能力を高めるために,マルチエージェントインタラクションが有効かどうかを検討する。
動的インタラクションと知覚を統合した新しいコラーニングフレームワークであるIRRを紹介する。
ILRはシングルエージェント学習を一貫して上回り、最強のベースラインよりも最大5%向上した。
- 参考スコア(独自算出の注目度): 31.453846641515472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-agent learning approaches have developed interactive training environments to explicitly promote collaboration among multiple Large Language Models (LLMs), thereby constructing stronger multi-agent systems (MAS). However, during inference, they require re-executing the MAS to obtain final solutions, which diverges from human cognition that individuals can enhance their reasoning capabilities through interactions with others and resolve questions independently in the future. To investigate whether multi-agent interaction can enhance LLMs' independent problem-solving ability, we introduce ILR, a novel co-learning framework for MAS that integrates two key components: Dynamic Interaction and Perception Calibration. Specifically, Dynamic Interaction first adaptively selects either cooperative or competitive strategies depending on question difficulty and model ability. LLMs then exchange information through Idea3 (Idea Sharing, Idea Analysis, and Idea Fusion), an innovative interaction paradigm designed to mimic human discussion, before deriving their respective final answers. In Perception Calibration, ILR employs Group Relative Policy Optimization (GRPO) to train LLMs while integrating one LLM's reward distribution characteristics into another's reward function, thereby enhancing the cohesion of multi-agent interactions. We validate ILR on three LLMs across two model families of varying scales, evaluating performance on five mathematical benchmarks and one coding benchmark. Experimental results show that ILR consistently outperforms single-agent learning, yielding an improvement of up to 5% over the strongest baseline. We further discover that Idea3 can enhance the robustness of stronger LLMs during multi-agent inference, and dynamic interaction types can boost multi-agent learning compared to pure cooperative or competitive strategies.
- Abstract(参考訳): 既存のマルチエージェント学習アプローチでは,複数言語モデル(LLM)間の協調を明示的に促進し,より強力なマルチエージェントシステム(MAS)を構築するために,インタラクティブな学習環境が開発されている。
しかし、推論の間、彼らはMASを再実行して最終解を得る必要があり、それは個人が他者との対話を通じて推論能力を高め、将来独立して疑問を解決できるという人間の認識から分岐する。
マルチエージェントインタラクションがLCMの独立した問題解決能力を向上するかどうかを検討するために,動的インタラクションと知覚校正という2つの重要なコンポーネントを統合したMASのための新しいコラーニングフレームワークであるIRRを導入する。
具体的には、動的インタラクションはまず、質問の難易度とモデル能力に応じて、協調戦略または競争戦略のいずれかを適応的に選択する。
LLMはイデオロギー3(イデア共有、イデオロギー分析、イデオロギー融合)を通じて情報を交換する。
In Perception Calibration, ILRでは, Group Relative Policy Optimization (GRPO) を用いてLLMの報酬分布特性を他のLLMの報酬関数に統合し,マルチエージェントインタラクションの結合性を高める。
ILRは5つの数学ベンチマークと1つの符号化ベンチマークで評価し、異なるスケールの2つのモデルファミリの3つのLLMに対して検証する。
実験結果から, ILRはシングルエージェント学習を一貫して上回り, 最強のベースラインよりも最大5%向上した。
さらに、Idean3はマルチエージェント推論における強力なLLMの堅牢性を高めることができ、動的相互作用型は純粋な協調的戦略や競争的戦略と比較してマルチエージェント学習を促進することができる。
関連論文リスト
- LLMs Can't Handle Peer Pressure: Crumbling under Multi-Agent Social Interactions [35.71511502901056]
大規模言語モデル(LLM)は、コラボレーションインテリジェンスのコンポーネントとして、マルチエージェントシステムにますます多くデプロイされている。
LLMが過去の印象からの信頼をいかに形成し、誤報に抵抗し、相互作用中にピアインプットを統合するかを検討する。
KAIROSは、クイズコンテストをシミュレーションするベンチマークで、信頼性の異なるピアエージェントを提示する。
論文 参考訳(メタデータ) (2025-08-24T09:58:10Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning [26.736078756799635]
新しいポストトレーニングパラダイムMAPoRL(強化学習を用いた協調LLMのためのマルチエージェントポストトレーニング)を導入する。
MAPoRLでは、複数のLLMが独立して独自の応答を生成し、最終回答を協調的に改善するためのマルチターンディスカッションを行う。
MAPoRL検証器は、回答の正しさを検証するスコアを割り当てることで、回答と議論の両方を評価する。
スコアはコトレーニング報酬として機能し、マルチエージェントRLによって最大化される。
論文 参考訳(メタデータ) (2025-02-25T18:33:48Z) - Multi-Agent Reinforcement Learning with Focal Diversity Optimization [7.498844064516196]
MARL-Focal と呼ばれる多エージェント強化学習手法を提案する。
本モデルでは,最高のLCMエージェントと比較して5.51%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-06T20:44:26Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。