論文の概要: Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2512.22255v1
- Date: Wed, 24 Dec 2025 07:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.938998
- Title: Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks
- Title(参考訳): 思考の形状: 推論作業における分布が正確性よりも重要である場合
- Authors: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville,
- Abstract要約: より有能なモデルからの連鎖トレースのデータセットをトレーニングすることで、言語モデルの推論能力を向上させることができることを示す。
実験により、このアプローチは人間の注釈付きデータセットのトレーニングよりも推論タスクのパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 24.55929874173401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.
- Abstract(参考訳): 我々は,これらすべてのトレースが誤った最終回答につながる場合でも,より有能なモデルからCoT(チェーン・オブ・ソート)の合成データセットをトレーニングすることで,言語モデルの推論能力を改善することができるという驚くべき発見を提示する。
実験により,本手法は人間の注釈付きデータセットのトレーニングよりも推論タスクの性能が向上することが示された。
まず、合成データの分布は本質的に言語モデル自身の分布に近づき、学習しやすくする。
第二に、これらの‘正しくない’トレースは、しばしば部分的にしか欠陥がなく、モデルが学習できる妥当な推論ステップを含んでいる。
最初の仮説をさらにテストするために、言語モデルを使用して、人間の注釈付きトレースを言い換え、その分布をモデル自身の分布に近づけることで、パフォーマンスが向上することを示す。
第2の仮説では、ますます欠陥のあるCoTトレースを導入し、これらの欠陥に対してモデルが許容できる範囲について研究する。
我々は,MATH,GSM8K,Countdown,MBPPデータセットをQwen,Llama,Gemmaモデルにまたがる1.5Bから9Bのさまざまな言語モデル上で,数学,アルゴリズム推論,コード生成など,さまざまな推論領域にまたがる知見を実証した。
我々の研究は、モデルの分布に近いデータセットをキュレートすることが、考慮すべき重要な側面であることを示している。
また、正しい最終回答が必ずしも忠実な推論プロセスの信頼できる指標であるとは限らないことも示します。
関連論文リスト
- Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time [73.22651918134808]
この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [108.07030347318624]
より長い思考の連鎖(CoTs)によるスケーリングは、特定の領域におけるLarge Language Models(LLMs)の推論性能を損なう可能性があることを示す。
深層思考に異なる推論手法を採用するためのモデルを教えるための思考-最適スケーリング戦略を提案する。
我々のQwen2.5-32B-Instructに基づく自己改善モデルは、様々なベンチマークで他の蒸留ベースの32B o1-likeモデルより優れています。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Improving the Natural Language Inference robustness to hard dataset by data augmentation and preprocessing [1.7487745673871375]
自然言語推論(英: Natural Language Inference、NLI)とは、仮説が与えられた前提によって正当化できるかどうかを推測するタスクである。
本稿では,単語重複,数値推論,長さミスマッチ問題を解くために,データ拡張と事前処理手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T01:49:23Z) - Are Data-driven Explanations Robust against Out-of-distribution Data? [18.760475318852375]
エンドツーエンドのモデルに依存しない学習フレームワークであるDis Distributionally Robust Explanations (DRE)を提案する。
鍵となる考え方は、分配情報を完全に活用して、人間のアノテーションを使わずに説明の学習のための監視信号を提供することである。
提案手法は,分布変化に対する説明と予測の堅牢性の観点から,モデルの性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T02:02:08Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。