論文の概要: Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2509.21193v1
- Date: Thu, 25 Sep 2025 14:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.965864
- Title: Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning
- Title(参考訳): Eigen-1: 科学的推論のためのモニタベースRAGを用いた適応型マルチエージェントリファインメント
- Authors: Xiangru Tang, Wanghan Xu, Yujie Wang, Zijie Guo, Daniel Shao, Jiapeng Chen, Cixuan Zhang, Ziyi Wang, Lixin Zhang, Guancheng Wan, Wenlong Zhang, Lei Bai, Zhenfei Yin, Philip Torr, Hanrui Wang, Di Jin,
- Abstract要約: 暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
- 参考スコア(独自算出の注目度): 53.45095336430027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently shown strong progress on scientific reasoning, yet two major bottlenecks remain. First, explicit retrieval fragments reasoning, imposing a hidden "tool tax" of extra tokens and steps. Second, multi-agent pipelines often dilute strong solutions by averaging across all candidates. We address these challenges with a unified framework that combines implicit retrieval and structured collaboration. At its foundation, a Monitor-based retrieval module operates at the token level, integrating external knowledge with minimal disruption to reasoning. On top of this substrate, Hierarchical Solution Refinement (HSR) iteratively designates each candidate as an anchor to be repaired by its peers, while Quality-Aware Iterative Reasoning (QAIR) adapts refinement to solution quality. On Humanity's Last Exam (HLE) Bio/Chem Gold, our framework achieves 48.3\% accuracy -- the highest reported to date, surpassing the strongest agent baseline by 13.4 points and leading frontier LLMs by up to 18.1 points, while simultaneously reducing token usage by 53.5\% and agent steps by 43.7\%. Results on SuperGPQA and TRQA confirm robustness across domains. Error analysis shows that reasoning failures and knowledge gaps co-occur in over 85\% of cases, while diversity analysis reveals a clear dichotomy: retrieval tasks benefit from solution variety, whereas reasoning tasks favor consensus. Together, these findings demonstrate how implicit augmentation and structured refinement overcome the inefficiencies of explicit tool use and uniform aggregation. Code is available at: https://github.com/tangxiangru/Eigen-1.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年、科学的推論の進歩を強く示しているが、2つの大きなボトルネックが残っている。
まず、明示的な検索フラグメントは推論し、余分なトークンとステップの隠れた「ツール税」を課す。
第2に、マルチエージェントパイプラインは、すべての候補を平均化することによって、強力なソリューションを希薄化することが多い。
これらの課題に暗黙的な検索と構造化されたコラボレーションを組み合わせた統合されたフレームワークで対処する。
ファンデーションでは、Monitorベースの検索モジュールがトークンレベルで動作し、外部知識と最小限の中断と推論を統合する。
この基板上に、階層型ソリューションリファインメント(HSR)は、各候補を仲間によって修復されるアンカーとして反復的に指定する一方、QAIR(Quality-Aware Iterative Reasoning)は、ソリューションの品質に改善を適応させる。
Humanity's Last Exam (HLE) Bio/Chem Goldにおいて、我々のフレームワークは48.3\%の精度を達成した -- これまで報告された中で、最強のエージェントベースラインを13.4ポイント上回り、最上位のフロンティアLSMを18.1ポイント上回り、同時にトークン使用率を53.5\%、エージェントステップを43.7\%削減した。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
誤り分析は、推論失敗と知識ギャップが85パーセント以上で共起していることを示し、多様性分析は明確な二分法を明らかにしている: 検索タスクは解の多様性から恩恵を受けるが、推論タスクはコンセンサスを好む。
これらの結果から,明示的ツール使用と統一的アグリゲーションの非効率性に対して,暗黙の強化と構造化された洗練がいかに克服されているかが示唆された。
コードは、https://github.com/tangxiangru/Eigen-1.comで入手できる。
関連論文リスト
- Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Semantic Bridge: Universal Multi-Hop Question Generation via AMR-Driven Graph Synthesis [3.1427813443719868]
大きな言語モデル(LLM)のトレーニングは、高品質で推論集約的な質問応答ペアの不足という、重大なボトルネックに直面します。
textbfSemantic Bridgeは、任意の情報源から洗練されたマルチホップ推論質問を制御可能とする最初の普遍的フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T10:59:42Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - ComposeRAG: A Modular and Composable RAG for Corpus-Grounded Multi-Hop Question Answering [42.238086712267396]
ComposeRAGは、RAGパイプラインをアトミックで構成可能なモジュールに分解する、新しいモジュラー抽象化である。
精度と接地忠実性の両方において、一貫して強いベースラインを上回ります。
検証ファーストの設計は、低品質の検索設定において、未解決の回答を10%以上削減する。
論文 参考訳(メタデータ) (2025-05-30T21:10:30Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。