論文の概要: Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.16938v1
- Date: Sat, 16 May 2026 11:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.307552
- Title: Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models
- Title(参考訳): シーリングとしての努力はダイアルではなく:Reasoning Budgetは人間と大規模推論モデルの間の認知的コスト調整を調節しない
- Authors: Yueqing Hu, Tianhong Wang,
- Abstract要約: 大きな推論モデルは、認知タスク全体で人間の反応時間を追跡するチェーンオブ思考のトレースを生成する。
このアライメントが推論時間推論の努力と異なるかどうかをテストする。
トレーニングタイムの達成、LRMと人間の間の認知的コストの調整は、トレーニングタイムの達成のように見える。
- 参考スコア(独自算出の注目度): 0.4306164411864404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) generate chain-of-thought traces whose length tracks human reaction times across cognitive tasks, but recent debate questions whether this alignment reflects genuine computational structure or surface verbosity. We test whether the alignment varies with inference-time reasoning effort. Across GPT-OSS-20B and GPT-OSS-120B, three effort levels, and six reasoning tasks, within-task and cross-task alignment remain invariant: Bayes Factors lean toward the null, and mean alignment is numerically near-identical across conditions. A manipulation check reveals that the effort parameter sets an upper budget on generation rather than driving real-time allocation, suggesting that the allocation policy is crystallized at training time. Arithmetic complexity contrasts further show that token allocation tracks fine-grained, format-dependent human difficulty patterns, with model scale improving the match. Cognitive cost alignment between LRMs and humans appears to be a training-time achievement, robust to inference-time perturbations, supporting a compiled rather than online account of LRM problem-solving.
- Abstract(参考訳): 大規模推論モデル(LRM)は、認知タスク間の人間の反応時間を追跡するチェーン・オブ・シント・トレースを生成するが、近年の議論は、このアライメントが真の計算構造や表面の冗長性を反映しているかどうかを疑問視している。
このアライメントが推論時間推論の努力と異なるかどうかをテストする。
GPT-OSS-20B と GPT-OSS-120B 全体では、3つの作業レベルと6つの推論タスク、タスク内およびタスク間アライメントが不変であり、ベイズ因子はnull に傾き、平均アライメントは条件によって数値的にほぼ同一である。
操作チェックでは、作業パラメータがリアルタイムアロケーションを駆動するのではなく、生成時に上位予算を設定することを明らかにし、トレーニング時にアロケーションポリシが結晶化されることを示唆する。
算術的な複雑性は、トークン割り当てトラックがきめ細かなフォーマットに依存した人間の難易度パターンであり、モデルスケールはマッチングを改善していることをさらに示している。
LRMと人間の認知的コストアライメントは、トレーニング時の達成であり、推論時の摂動に頑健であり、LRM問題解決のオンラインアカウントではなく、コンパイルされたデータをサポートする。
関連論文リスト
- Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality [1.5994376682356057]
本稿では,変数が与えられた候補変数,入出力試行,事前定義された論理関数をどの変数が決定するかを推定する可変属性タスクを提案する。
どちらのモデルも、複雑さが増加するにつれて、ブルートフォースから分析戦略への移行を示す。
これらの結果から,コストベースの報酬を伴わないモデルでも,タスクの複雑さに応じて推論動作を調整できることが示唆された。
論文 参考訳(メタデータ) (2026-02-10T22:07:05Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density [2.4149105714758545]
認知負荷理論(CLT)に基づく新しい総合ベンチマークであるCogniLoadを紹介する。
CogniLoadは、CLTのコア次元を反映した、独立に調整可能なパラメータを持つ自然言語論理パズルを生成する。
CogniLoadは、タスク長を支配的な制約として識別する、異なるパフォーマンス感受性を明らかにしている。
論文 参考訳(メタデータ) (2025-09-22T22:28:33Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。