論文の概要: Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective
- arxiv url: http://arxiv.org/abs/2601.03154v1
- Date: Tue, 06 Jan 2026 16:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.020887
- Title: Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective
- Title(参考訳): チェーン・オブ・サート・推論の効果のデカップリング:人間のラベル変動の視点から
- Authors: Beiduo Chen, Tiancheng Hu, Caiqi Zhang, Robert Litschko, Anna Korhonen, Barbara Plank,
- Abstract要約: 長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
- 参考スコア(独自算出の注目度): 60.45433515408158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-tuned LLMs utilizing long Chain-of-Thought (CoT) excel at single-answer tasks, yet their ability to model Human Label Variation--which requires capturing probabilistic ambiguity rather than resolving it--remains underexplored. We investigate this through systematic disentanglement experiments on distribution-based tasks, employing Cross-CoT experiments to isolate the effect of reasoning text from intrinsic model priors. We observe a distinct "decoupled mechanism": while CoT improves distributional alignment, final accuracy is dictated by CoT content (99% variance contribution), whereas distributional ranking is governed by model priors (over 80%). Step-wise analysis further shows that while CoT's influence on accuracy grows monotonically during the reasoning process, distributional structure is largely determined by LLM's intrinsic priors. These findings suggest that long CoT serves as a decisive LLM decision-maker for the top option but fails to function as a granular distribution calibrator for ambiguous tasks.
- Abstract(参考訳): ロングチェーン・オブ・ザウト(CoT)を用いた推論調整型LLMは、単一問合せ作業において優れるが、人間のラベル変動をモデル化する能力は、解決するよりも確率的曖昧さを捉える必要がある。
本研究は,Cross-CoT 実験を応用して,本質的なモデル先行からテキストを推論する効果を分離する,分散型タスクの系統的ゆがみ実験を通じて検討する。
CoTは分布アライメントを改善するが、最終精度はCoT含量(99%の分散コントリビューション)で決定されるのに対し、分布ランキングはモデル優先(80%以上)で制御される。
ステップワイズ解析により、推理過程においてCoTの精度への影響は単調に増大するが、分布構造はLLMの本質的な先行によって決定される。
これらの結果から,CoTが最上位のLCM決定因子となるが,不明瞭なタスクの粒度分布キャリブレータとして機能しないことが示唆された。
関連論文リスト
- Divergence-Minimization for Latent-Structure Models: Monotone Operators, Contraction Guarantees, and Robust Inference [5.373905622325275]
我々は、潜時混合モデルにおける堅牢かつ効率的な推論のための分散化最小化(DM)フレームワークを開発する。
残留調整された発散を最適化することにより、DMアプローチはEMを特別なケースとして回収し、堅牢な代替品を生成する。
論文 参考訳(メタデータ) (2025-11-22T08:25:29Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。