Fugu-MT 論文翻訳(概要): Pause or Fabricate? Training Language Models for Grounded Reasoning

論文の概要: Pause or Fabricate? Training Language Models for Grounded Reasoning

arxiv url: http://arxiv.org/abs/2604.19656v1
Date: Tue, 21 Apr 2026 16:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.876881
Title: Pause or Fabricate? Training Language Models for Grounded Reasoning
Title（参考訳）: ポーズ・ファブリケート : 接地推論のための学習言語モデル
Authors: Yiwen Qiu, Linjuan Wu, Yizhou Liu, Yuchen Yan, Jin Ma, Xu Tan, Yao Hu, Daoxin Zhang, Wenqi Zhang, Weiming Lu, Jun Xiao, Yongliang Shen,
Abstract要約: 不完全情報に基づくグラウンドド推論のために,対話型強化学習(GRIL)によるグラウンドド推論を提案する。 GRILは推論プロセスを2つの段階に分解する: 明確化と一時停止、利用可能な情報が十分かどうかを識別する。 GSM8K-InsufficientおよびMetaMATH-Insufficientの実験では、GRILは前提検出を大幅に改善し(最大45%)、平均応答長を20%以上削減しながらタスク成功率が30%向上した。
参考スコア（独自算出の注目度）: 50.104657152302956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have achieved remarkable progress on complex reasoning tasks. However, they often implicitly fabricate information when inputs are incomplete, producing confident but unreliable conclusions -- a failure mode we term ungrounded reasoning. We argue that this issue arises not from insufficient reasoning capability, but from the lack of inferential boundary awareness -- the ability to recognize when the necessary premises for valid inference are missing. To address this issue, we propose Grounded Reasoning via Interactive Reinforcement Learning (GRIL), a multi-turn reinforcement learning framework for grounded reasoning under incomplete information. GRIL decomposes the reasoning process into two stages: clarify and pause, which identifies whether the available information is sufficient, and grounded reasoning, which performs task solving once the necessary premises are established. We design stage-specific rewards to penalize hallucinations, enabling models to detect gaps, stop proactively, and resume reasoning after clarification. Experiments on GSM8K-Insufficient and MetaMATH-Insufficient show that GRIL significantly improves premise detection (up to 45%), leading to a 30% increase in task success while reducing average response length by over 20%. Additional analyses confirm robustness to noisy user responses and generalization to out-of-distribution tasks.
Abstract（参考訳）: 大規模言語モデルは複雑な推論タスクにおいて顕著な進歩を遂げた。しかしながら、インプットが不完全である場合、情報を暗黙的に作成し、信頼できない結論を生み出します -- 根拠のない推論(ungrounded reasoning)と呼ばれる失敗モードです。この問題は、推論能力の不足からではなく、推論に必要な前提が欠落していることを認識できる、推論境界認識の欠如から生じます。この問題を解決するために,不完全情報に基づく接地推論のための多ターン強化学習フレームワークGRIL(Interactive Reinforcement Learning)を提案する。 GRILは推論プロセスを2つの段階に分解する: 明確化と一時停止、利用可能な情報が十分かどうかを識別する。我々は、幻覚を罰するステージ固有の報酬を設計し、モデルがギャップを検出し、積極的に停止し、明確化後に推論を再開できるようにする。 GSM8K-InsufficientおよびMetaMATH-Insufficientの実験では、GRILは前提検出を大幅に改善し(最大45%)、平均応答長を20%以上削減しながらタスク成功率が30%向上した。さらなる分析により、ノイズの多いユーザ応答に対する堅牢性と、配布外タスクへの一般化が確認される。

関連論文リスト

InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning [36.37924312794855]
冗長性は単に長さの問題ではなく、中間的推論品質の低下の症状であると主張する。本稿では,AUCに基づく報酬と単調報酬を組み合わせたRLトレーニングのための報奨フレームワークであるInfoDensityを,推論品質の統一尺度として提案する。
論文参考訳（メタデータ） (2026-03-18T03:11:36Z)
Illocutionary Explanation Planning for Source-Faithful Explanations in Retrieval-Augmented Language Models [6.517222960194991]
我々は、説明の主張がどの程度に根拠づけられるかを、明示的な情報源として遡って調べる。我々は、90のStack Overflow質問に対して、3つのプログラミング教科書で6つの大きな言語モデルをベンチマークした。非検索拡張生成(RAG)モデルは0%, ベースラインRAGシステムは22-40%の低い正中性(22-40%)を示す。
論文参考訳（メタデータ） (2026-03-16T11:10:29Z)
Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。 SCRは推論効率と自己検証を大幅に改善する。既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文参考訳（メタデータ） (2026-01-12T04:04:01Z)
Abductive Inference in Retrieval-Augmented Language Models: Generating and Validating Missing Premises [0.0]
本稿では,帰納的推論をLLMに組み込むフレームワークを提案する。帰納的推論とマルチホップQAベンチマークの実験結果から,本手法は解答精度と帰納的忠実度の両方を改善することが示された。この研究は、RAGシステムの堅牢性と説明可能性を高めるための有望な方向として、帰納的推論を強調している。
論文参考訳（メタデータ） (2025-11-06T03:37:24Z)
From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。 DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文参考訳（メタデータ） (2025-10-13T14:29:15Z)
Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens [19.316594303998667]
推論タスクは、機械学習モデルの能力を評価するための厳格なベンチマークとみなされてきた。我々は、因果的視点から推論タスクを再考し、潜在空間におけるそれらの振る舞いを理解する。 SR$2$と呼ばれるフレームワークを導入し、推定された潜在変数を選択機構にフィードバックとして組み込む。
論文参考訳（メタデータ） (2025-10-09T13:45:31Z)
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts [50.77454873238667]
本論文では,文字の前書きが本書の正統的な物語と一致しているかどうかを判断する作業を通じて,長文理解を評価するためのベンチマークであるPreLUDEを紹介する。私たちのタスクは、既存のベンチマークよりもグローバルな理解と深い推論の需要が強くなります。実験結果は、文脈学習、RAG、最先端のLLMによるドメイン内トレーニング、商用DeepResearchサービス、人間の遅れによる遅延といったタスクの課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-08-13T14:28:25Z)
Towards Solving More Challenging IMO Problems via Decoupled Reasoning and Proving [48.22540519786074]
最近の研究では、非公式な精度は80%を超え、公式な成功はPutnamBenchのようなベンチマークで8%以下である。低レベルの証明生成から高レベルの推論を分離する新しいフレームワークを提案する。提案手法は,2000年以降のIMO問題に対して,従来のオープンソース証明者が未報告の課題として評価した。
論文参考訳（メタデータ） (2025-07-07T22:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。