論文の概要: Critic-Guided Heterogeneous Multi-Agent Reasoning for Reliable Mathematical Problem Solving
- arxiv url: http://arxiv.org/abs/2606.05704v1
- Date: Thu, 04 Jun 2026 04:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.563956
- Title: Critic-Guided Heterogeneous Multi-Agent Reasoning for Reliable Mathematical Problem Solving
- Title(参考訳): 信頼性数学的問題解決のための批判誘導不均一マルチエージェント推論
- Authors: Muhammad Talha Sharif, Abdul Rehman,
- Abstract要約: 本研究では、数学的推論の信頼性を向上させるために、批判に基づくヘテロジニアスなマルチエージェント手法を提案する。
GSM8Kベンチマーク実験により,提案手法は単写および非批判モデルに対して最大13%の精度向上が達成された。
- 参考スコア(独自算出の注目度): 0.10768487997600945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Large Language Models (LLMs) have shown impressive reasoning abilities; but they are still susceptible to hallucinations, intermediate reasoning mistakes, and unreliable reasoning results in complex mathematical reasoning problems. In this study, we introduce a critic-based heterogeneous multi-agent approach to improve the dependability of mathematical reasoning. This framework incorporates several LLM agents of different specialties and employs a critic-driven adaptive learning system to assess and guide the reasoning process based on intermediate feedback. The system adopts a generator-validator framework, with the validator not only determining correctness but also offering critiques to guide regeneration of solutions. This allows for adaptive error correction and prevents error cascading. Our experiments on the GSM8K benchmark show that the proposed method achieves up to 13% accuracy improvement over single-shot and non-critic models. Additionally, findings suggest that heterogeneity and critique reduce the need for large models, allowing smaller models to perform on par. Ablation studies reveal the main performance gains are due to the critic-based feedback loop and not model size. In summary, the proposed approach showcases the benefits of combining heterogeneous multi-agent collaboration and critique to obtain reliable and interpretable reasoning systems.
- Abstract(参考訳): 最近のLarge Language Models (LLMs) は印象的な推論能力を示しているが、それでも幻覚、中間的推論ミス、信頼性の低い推論は複雑な数学的推論問題を引き起こす。
本研究では,数学的推論の信頼性を向上させるために,批判に基づくヘテロジニアスなマルチエージェント手法を提案する。
このフレームワークは、異なる専門分野のLLMエージェントを取り入れ、批判駆動適応学習システムを用いて、中間フィードバックに基づいて推論プロセスを評価し、指導する。
このシステムはジェネレータバリケータフレームワークを採用しており、バリケータは正確性を判断するだけでなく、ソリューションの再生を導くための批判も提供する。
これにより、適応的なエラー修正が可能となり、エラーカスケードが防止される。
GSM8Kベンチマーク実験により,提案手法は単写および非批判モデルに対して最大13%の精度向上を達成できた。
さらに、不均一性や批判が大きなモデルの必要性を減らし、より小さなモデルでも同等に動作できることが示唆された。
アブレーションによる研究によると、主なパフォーマンス向上は、モデルのサイズではなく、批判に基づくフィードバックループによるものである。
要約して、提案手法は、信頼性と解釈可能な推論システムを得るために、異種多エージェント協調と批判を組み合わせる利点を示す。
関連論文リスト
- Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Counterfactual Self-Questioning for Stable Policy Optimization in Language Models [0.0]
本稿では,一つの言語モデルが自己推論の反現実的批判を生成・評価するフレームワークである反現実的自問法を提案する。
複数の数学的推論ベンチマークの実験は、特により小さなモデルにおいて、反実的な自己探究によって精度と訓練安定性が向上することを示している。
論文 参考訳(メタデータ) (2025-12-31T09:10:37Z) - Rectify Evaluation Preference: Improving LLMs' Critique on Math Reasoning via Perplexity-aware Reinforcement Learning [34.43632129774481]
本稿では,不均衡な評価嗜好の潜在的な理由を定量化し,検討する。
理由の分析により、評価の嗜好を正すために、新しいパープレキシティ対応強化学習アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2025-11-13T13:37:45Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning [3.721438719967748]
Table-Criticは、協調的な批判と推論プロセスの反復的な洗練を促進する、新しいマルチエージェントフレームワークである。
枠組みは, エラー識別審査員, 包括的批判批判者, プロセス改善の精錬者, パターン蒸留のキュレーターの4つの特殊エージェントから構成される。
計算効率と解分解率の低下を保ちながら、テーブル・クライトは精度と誤差補正率に優れることを示した。
論文 参考訳(メタデータ) (2025-02-17T13:42:12Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。