論文の概要: More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.06672v1
- Date: Tue, 21 Apr 2026 04:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.664283
- Title: More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models
- Title(参考訳): より思考し、よりバイアス: 推論モデルにおける長さ駆動的な位置バイアス
- Authors: Xiao Wang,
- Abstract要約: チェーン・オブ・シント(CoT)推論と推論調整モデルは通常、慎重に考えることで浅いバイアスを減らすと仮定される。
我々は、複数の選択QAにおける位置バイアスでこれを検証し、異なるストーリーを見つける:任意の推論能力モデルにおいて、探究位置バイアスは、推論軌跡の長さとともにスケールする。
- 参考スコア(独自算出の注目度): 5.705685936981751
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chain-of-thought (CoT) reasoning and reasoning-tuned models such as DeepSeek-R1 are commonly assumed to reduce shallow heuristic biases by thinking carefully. We test this on position bias in multiple-choice QA and find a different story: within any reasoning-capable model, per-question position bias scales with the length of the reasoning trajectory. Across thirteen reasoning-mode configurations (two R1-distilled 7-8B models, two base models prompted with CoT, and DeepSeek-R1 at 671B) on MMLU, ARC-Challenge, and GPQA, twelve show a positive partial correlation between trajectory length and Position Bias Score (PBS) after controlling for accuracy, ranging from 0.11 to 0.41 (all p < 0.05). All twelve open-weight reasoning-mode configurations show monotonically increasing PBS across length quartiles. A truncation intervention provides causal evidence: continuations resumed from later points in the trajectory are increasingly likely to shift toward position-preferred options (16% to 32% for R1-Qwen-7B across absolute-position buckets). At 671B, aggregate PBS collapses to 0.019, but the length effect still manifests in the longest quartile (PBS = 0.071), suggesting that accuracy gates the expression of length-driven bias rather than eliminating the underlying mechanism. We additionally find that direct-answer position bias is a distinct phenomenon with a different footprint (strong in Llama-Instruct-direct, weak in Qwen-Instruct-direct, and uncorrelated with trajectory length): CoT reasoning replaces this baseline bias with length-accumulated bias. Our results argue that reasoning-capable models should not be treated as order-robust by default in MCQ evaluation pipelines, and offer a diagnostic toolkit (PBS, commitment change point, effective switching, truncation probes) for auditing position bias in reasoning models.
- Abstract(参考訳): CoT(Chain-of- Thought)推論やDeepSeek-R1のような推論調整モデルは通常、慎重に考えることで浅いヒューリスティックバイアスを減らすと仮定される。
我々は、複数の選択QAにおける位置バイアスでこれを検証し、異なるストーリーを見つける:任意の推論能力モデルにおいて、探究位置バイアスは、推論軌跡の長さとともにスケールする。
MMLU、ARC-Challenge、GPQAの13の推理モード構成(2つのR1蒸留7-8Bモデル、CoTによる2つのベースモデル、671BでのDeepSeek-R1)は、精度を0.11から0.41(全てp < 0.05)まで制御した後、軌道長と位置バイアススコア(PBS)の正の偏相関を示す。
12個のオープンウェイトな推論モード構成は全て、長さの四量体でPBSが単調に増加することを示している。
軌道上の後続点から再開された継続は、位置優先の選択肢(絶対位置のバケットにまたがるR1-Qwen-7Bでは16%から32%)にシフトする傾向にある。
671Bでは、集合PBSは0.019に崩壊するが、長方晶(PBS = 0.071)では依然として長さ効果が示され、基礎となるメカニズムをなくすのではなく、長さ駆動バイアスの表現を正確にゲートすることが示唆された。
さらに, 直接解答位置バイアスは, 異なるフットプリント(Llama-Instruct-direct, weak in Qwen-Instruct-direct, uncorrelated with trajectory length): CoT reasoningは, このベースラインバイアスを長さ累積バイアスに置き換える。
本研究は,MCQ評価パイプラインにおいて,推論可能なモデルはデフォルトではオーダーローバストとして扱われるべきではなく,推論モデルにおける位置バイアスを監査するための診断ツールキット(PBS,コミットメント変更点,効率的な切替,トランケーションプローブ)を提供することを論じる。
関連論文リスト
- Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models [0.0]
Directional Reasoning Trajectory Change (DRTC) は、単一のオン政治ロールアウトからロングフォーム推論を解釈するためのプロセス因果的なフレームワークである。
DRTCは不確実性と分布シフト信号を用いてピボット決定点を検出する。
各介入がモデルのログ確率軌道の方向をリダイレクトするかどうかを測定する。
論文 参考訳(メタデータ) (2026-02-17T03:38:16Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought [33.32335629744919]
CoT(Chain-of- Thought prompting)は、言語モデル推論の説明可能性を改善する可能性がある。
また、CoTはモデルの動きに影響を与える要因を体系的に誤って表すこともできる。
まず、GPT-3.5-TurboとLlama-8bモデルに影響を与える9つの異なるバイアスのデータセットを作成します。
論文 参考訳(メタデータ) (2024-03-08T18:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。