論文の概要: Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces
- arxiv url: http://arxiv.org/abs/2602.14404v1
- Date: Mon, 16 Feb 2026 02:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.046283
- Title: Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces
- Title(参考訳): ブールかバゲットか? : タスクトポロジー, 長さ一般化, 推論トレースの便益に関する研究
- Authors: William L. Tong, Ege Cakar, Cengiz Pehlevan,
- Abstract要約: 命題論理における2300万以上の文とそれに対応する証明のデータセットであるPITAを使用します。
RTモデルは広小部分集合と浅小部分集合でよく一般化され、非RTベースラインに対して狭小部分集合と深小部分集合では劣化する。
我々の理論は、RTモデルが深いタスクでどれだけうまく機能するかを制限する基本的なスケーリングを示唆し、幅広いタスクでそれらの一般化の強みを強調している。
- 参考スコア(独自算出の注目度): 31.37944377681284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed meteoric progress in reasoning models: neural networks that generate intermediate reasoning traces (RTs) before producing a final output. Despite the rapid advancement, our understanding of how RTs support reasoning, and the limits of this paradigm, remain incomplete. To promote greater clarity, we introduce PITA: a novel large-scale dataset of over 23 million statements in propositional logic and their corresponding proofs. As a benchmark for robust reasoning, we focus on length generalization: if a model is trained to determine truth or falsity on statements with proofs up to fixed length, how well does it generalize to statements requiring longer proofs? We propose notions of (1) task depth and (2) task breadth, which measure respectively (1) the number of steps required to solve an example from a task and (2) the number of unique examples across a task. We vary these quantities across subsets of PITA, and find that RT models generalize well on broad and shallow subsets, while deteriorating on narrow and deep subsets relative to non-RT baselines. To determine whether our results are idiosyncratic to PITA or indicative of general phenomena, we compare our results to a simple synthetic task based on syllogisms. Our resulting theory suggests fundamental scalings that limit how well RT models perform on deep tasks, and highlights their generalization strengths on broad tasks. Our findings overall identify fundamental benefits and limitations inherent in using reasoning traces.
- Abstract(参考訳): 近年、中間的推論トレース(RT)を生成するニューラルネットワークが最終的な出力を生成する前に、推論モデルの気象学的進歩を目撃している。
急速な進歩にもかかわらず、RTが推論をどのようにサポートするか、そしてこのパラダイムの限界に対する我々の理解は、いまだに不完全である。
より明確にするために、命題論理とその証明における2300万以上の文からなる新しい大規模データセットPITAを紹介する。
厳密な推論のベンチマークとして、我々は長さの一般化に焦点をあてる: もしあるモデルが、ある証明が一定の長さまであるステートメントの真理性や虚偽性を決定するために訓練された場合、より長い証明を必要とするステートメントにどのように一般化されるか?
本研究では,(1)タスクの深さと(2)タスク幅の概念を提案し,(1)タスクから例を解くために必要なステップの数,(2)タスク全体でのユニークな例の数を測定した。
これらの量はPITAのサブセットによって異なり、RTモデルは広小部分集合と浅小部分集合でよく一般化され、非RTベースラインに対して狭小部分集合と深小部分集合で劣化する。
結果がPITAに同化的であるか,あるいは一般的な現象を示すのかを判断するために,本研究の結果をシロジズムに基づく単純な合成課題と比較した。
我々の理論は、RTモデルが深いタスクでどれだけうまく機能するかを制限する基本的なスケーリングを示唆し、幅広いタスクでそれらの一般化の強みを強調している。
本研究は,推理トレースを用いた場合の基本的利点と限界を明らかにした。
関連論文リスト
- ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。
より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文 参考訳(メタデータ) (2025-07-02T17:30:24Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。