論文の概要: ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control
- arxiv url: http://arxiv.org/abs/2602.04496v1
- Date: Wed, 04 Feb 2026 12:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.52481
- Title: ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control
- Title(参考訳): ReThinker: ガイド反射と信頼制御による科学的推論
- Authors: Zhentao Tang, Yuqi Cui, Shixiong Kai, Wenqian Zhao, Ke Ye, Xing Li, Anxin Tian, Zehua Pei, Hui-Ling Zhen, Shoubo Hu, Xiaoguang Li, Yunhe Wang, Mingxuan Yuan,
- Abstract要約: ReThinkerは、検索、ツールの使用、マルチエージェント推論を編成する信頼性対応のエージェントフレームワークである。
HLE、GAIA、XBenchの実験は、ReThinkerが常に最先端の基礎モデルより優れていることを示した。
- 参考スコア(独自算出の注目度): 44.113610704492224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expert-level scientific reasoning remains challenging for large language models, particularly on benchmarks such as Humanity's Last Exam (HLE), where rigid tool pipelines, brittle multi-agent coordination, and inefficient test-time scaling often limit performance. We introduce ReThinker, a confidence-aware agentic framework that orchestrates retrieval, tool use, and multi-agent reasoning through a stage-wise Solver-Critic-Selector architecture. Rather than following a fixed pipeline, ReThinker dynamically allocates computation based on model confidence, enabling adaptive tool invocation, guided multi-dimensional reflection, and robust confidence-weighted selection. To support scalable training without human annotation, we further propose a reverse data synthesis pipeline and an adaptive trajectory recycling strategy that transform successful reasoning traces into high-quality supervision. Experiments on HLE, GAIA, and XBench demonstrate that ReThinker consistently outperforms state-of-the-art foundation models with tools and existing deep research systems, achieving state-of-the-art results on expert-level reasoning tasks.
- Abstract(参考訳): 特にHLE(Humanity's Last Exam)のようなベンチマークでは、厳密なツールパイプライン、脆いマルチエージェント調整、非効率なテストタイムスケーリングによってパフォーマンスが制限されることが多い。
ReThinkerは、検索、ツール使用、マルチエージェント推論をステージワイドなSolver-Critic-Selectorアーキテクチャを通してオーケストレーションする信頼性対応のエージェントフレームワークである。
固定パイプラインに従うのではなく、ReThinkerはモデル信頼性に基づいた計算を動的に割り当て、適応的なツール呼び出し、ガイド付き多次元リフレクション、堅牢な信頼性重み付け選択を可能にする。
人間のアノテーションを使わずにスケーラブルなトレーニングを支援するため、我々はさらに、成功した推論トレースを高品質な監視に変換する逆データ合成パイプラインと適応的な軌道リサイクル戦略を提案する。
HLE、GAIA、XBenchの実験では、ReThinkerは最先端の基礎モデルをツールや既存の深層研究システムで一貫して上回り、専門家レベルの推論タスクで最先端の結果を達成することを実証している。
関連論文リスト
- ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.7657839292775]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-04T18:59:52Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。