論文の概要: Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning
- arxiv url: http://arxiv.org/abs/2602.14451v1
- Date: Mon, 16 Feb 2026 04:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.137193
- Title: Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning
- Title(参考訳): 先行的インフォームド推論:テスト時間先行学習による大規模推論モデルの再考
- Authors: Qianyue Wang, Jinwu Hu, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Yu Rong, Mingkui Tan,
- Abstract要約: 大規模言語モデル(LLM)における推論は、しばしば、冗長な自己探索と検証を伴う非効率な長い連鎖トレースに悩まされる。
過去の事例を利用して検索空間を制約し、試行錯誤を減らすという人間の推論パターンに着想を得て、先行インフォームド推論(PIR)を提案する。
PIRは、LEMの推論パラダイムを、徹底的な自己探索から、前例からの指導的学習に転換する。
- 参考スコア(独自算出の注目度): 37.40951956513094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning in Large Language Models (LLMs) often suffers from inefficient long chain-of-thought traces with redundant self-exploration and validation, which inflate computational costs and even degrade performance. Inspired by human reasoning patterns where people solve new problems by leveraging past related cases to constrain search spaces and reduce trial-and-error, we propose Precedent Informed Reasoning (PIR) transforming LRMs'reasoning paradigm from exhaustive self-exploration to guided learning from precedents. PIR addresses two key challenges: what precedents to adopt and how to utilize them. First, Adaptive Precedent Selection (APS) constructs, for each question and LRM, a compact set of precedents that are both semantically related and informative for the model. It ranks examples by a joint score with semantic similarity and model perplexity, then adapts the amount of precedents to maximize perplexity reduction. Second, Test-time Experience Internalization (TEI) is treated as the test-time learning on precedent-informed instruction, updating lightweight adapters to internalize solution patterns and use them as a prior during subsequent reasoning. Experiments across mathematical reasoning, scientific QA, and code generation demonstrate that PIR consistently shortens reasoning traces while maintaining or improving final accuracy across LLMs, yielding outstanding accuracy-efficiency trade-offs.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論は、しばしば、冗長な自己探索と検証を伴う非効率な長い連鎖トレースに悩まされ、計算コストを増大させ、性能を低下させる。
過去の事例を利用して探索空間を制約したり、試行錯誤を低減したりすることで、新たな問題を解決する人間の推論パターンに着想を得て、先行インフォームド推論(PIR)により、LEMの推論パラダイムを徹底的な自己探索から先例からの学習へと変換する。
PIRは、採用すべき前例と活用方法の2つの主要な課題に対処する。
まず、Adaptive Precedent Selection (APS) は、各質問と LRM に対して、セマンティックに関連があり、モデルに対して情報的であるような、コンパクトな前例のセットを構築する。
意味的類似性とモデルパープレクティリティの合同スコアで例をランク付けし、その後、パープレクティリティの最大化のために前例の量に適応する。
第二に、テストタイム体験内部化(TEI)は、前例のない命令に対するテストタイム学習として扱われ、軽量なアダプタをアップデートして、ソリューションパターンを内部化し、その後の推論でそれらを前もって使用する。
数学的推論、科学的なQA、コード生成に関する実験は、PIRがLLM全体の最終的な精度を維持したり改善したりしながら、推論トレースを一貫して短縮し、顕著な精度と効率のトレードオフをもたらすことを示した。
関連論文リスト
- Beyond What Seems Necessary: Hidden Gains from Scaling Training-Time Reasoning Length under Outcome Supervision [30.75583081407994]
LLMの思考と推論の訓練は、最先端のモデルを構築する上で重要な要素となっている。
近年の取り組みは、長いCoTを誘発するRL微調整や、アーキテクチャの反復による遅延推論のスケーリングなど、さまざまな方法でこれを追求している。
結果のみの監督の下では、トレーニング時間推論の長さが増加するにつれて、アウト・オブ・ディストリビューション(OOD)のパフォーマンスが向上し続ける。
論文 参考訳(メタデータ) (2026-01-31T22:54:45Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Reasoning Pattern Alignment Merging for Adaptive Reasoning [48.347817456299104]
Reasoning Pattern Alignment Merging (RPAM)
RPAMは、クエリ適応推論を容易にする機能アライメントに基づく階層的なモデルマージフレームワークである。
広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-01-07T01:36:39Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors [45.578570554635775]
大規模言語モデル(LLM)は、思考の連鎖を拡大することによって、多段階の問題を解決する。
再帰的推論の断片を簡潔かつ再利用可能な「行動」に変換する簡単なメカニズムについて検討する。
これらの振る舞いは"振る舞いハンドブック"に格納され、推論時のモデルインコンテキストにそれらを供給するか、教師付き微調整によってパラメータに蒸留する。
論文 参考訳(メタデータ) (2025-09-16T16:44:26Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。