論文の概要: From Efficiency to Adaptivity: A Deeper Look at Adaptive Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10788v1
- Date: Thu, 13 Nov 2025 20:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.325814
- Title: From Efficiency to Adaptivity: A Deeper Look at Adaptive Reasoning in Large Language Models
- Title(参考訳): 効率性から適応性へ:大規模言語モデルにおける適応推論のより深い考察
- Authors: Chao Wu, Baoheng Li, Mingchen Gao, Zhenyi Wang,
- Abstract要約: 現在の大規模言語モデル(LLM)は、タスクの複雑さに関わらず一様推論戦略を適用し、簡単な問題に対して長いトレースを生成しながら、困難なタスクに対する推論の拡張に失敗する。
この調査は、適応性のレンズを通して推論を再構成し、難易度や不確実性といった入力特性に基づいて推論の労力を割り当てる能力について考察する。
- 参考スコア(独自算出の注目度): 17.96350700093472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have made reasoning a central benchmark for evaluating intelligence. While prior surveys focus on efficiency by examining how to shorten reasoning chains or reduce computation, this view overlooks a fundamental challenge: current LLMs apply uniform reasoning strategies regardless of task complexity, generating long traces for trivial problems while failing to extend reasoning for difficult tasks. This survey reframes reasoning through the lens of {adaptivity}: the capability to allocate reasoning effort based on input characteristics such as difficulty and uncertainty. We make three contributions. First, we formalize deductive, inductive, and abductive reasoning within the LLM context, connecting these classical cognitive paradigms with their algorithmic realizations. Second, we formalize adaptive reasoning as a control-augmented policy optimization problem balancing task performance with computational cost, distinguishing learned policies from inference-time control mechanisms. Third, we propose a systematic taxonomy organizing existing methods into training-based approaches that internalize adaptivity through reinforcement learning, supervised fine-tuning, and learned controllers, and training-free approaches that achieve adaptivity through prompt conditioning, feedback-driven halting, and modular composition. This framework clarifies how different mechanisms realize adaptive reasoning in practice and enables systematic comparison across diverse strategies. We conclude by identifying open challenges in self-evaluation, meta-reasoning, and human-aligned reasoning control.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、インテリジェンスを評価するための中央ベンチマークを推論している。
現在のLCMでは、タスクの複雑さに関係なく一様推論戦略を適用し、簡単な問題に対して長いトレースを生成しながら、困難なタスクに対する推論を拡張していない。
この調査は、難易度や不確実性といった入力特性に基づいて、推論の労力を割り当てる機能である {adaptivity} のレンズを通して推論を再構築する。
私たちは3つの貢献をします。
まず,これらの古典的認知パラダイムをアルゴリズム的実現と結びつけ,帰納的・帰納的・帰納的推論を LLM の文脈内で定式化する。
第2に、適応推論を、タスク性能と計算コストのバランスをとる制御強化されたポリシー最適化問題として定式化し、学習したポリシーと推論時制御機構を区別する。
第3に,既存の手法を,強化学習,教師付き微調整,学習コントローラを通じて適応性を内部化する学習ベースアプローチと,迅速な条件付け,フィードバック駆動停止,モジュール構成を通じて適応性を実現する訓練自由アプローチに編成する体系的な分類法を提案する。
このフレームワークは、異なるメカニズムが実際に適応推論を実現する方法を明らかにし、多様な戦略間で体系的な比較を可能にする。
我々は、自己評価、メタ推論、人間による推論制御におけるオープンな課題を特定して結論付ける。
関連論文リスト
- Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。
彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。
本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文 参考訳(メタデータ) (2025-07-02T18:27:42Z) - Chain of Methodologies: Scaling Test Time Computation without Training [77.85633949575046]
大規模言語モデル(LLM)は、トレーニングデータに対する詳細な洞察が不十分なため、複雑な推論タスクに苦しむことが多い。
本稿では,人間の方法論的洞察を統合することで構造的思考を強化するCoM(Chain of the CoM)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-06-08T03:46:50Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - LogiDynamics: Unraveling the Dynamics of Inductive, Abductive and Deductive Logical Inferences in LLM Reasoning [74.0242521818214]
本稿では,大言語モデル(LLM)におけるインダクティブ(システム1)と帰納的/帰納的(システム2)の推論の比較力学を体系的に検討する。
我々は、制御されたアナログ推論環境、多様度(テキスト、視覚、記号)、難易度、タスク形式(MCQ/フリーテキスト)を利用する。
我々の分析によると、System 2のパイプラインは一般的に、特に視覚的/象徴的なモダリティや難しいタスクにおいて優れており、System 1はテキストやより簡単な問題に対して競争力がある。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。