論文の概要: Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion
- arxiv url: http://arxiv.org/abs/2505.24362v2
- Date: Mon, 02 Jun 2025 10:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.085636
- Title: Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion
- Title(参考訳): LLM表現は、完了前にチェーン・オブ・ソートの成功に関する情報を符号化する
- Authors: Anum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser,
- Abstract要約: ゼロショット・チェーン・オブ・サート・プロセスの成功を完了前に予測できるかどうかを検討する。
LLM表現に基づく探索分類器は,単一トークンが生成される前にも良好に動作することがわかった。
- 参考スコア(独自算出の注目度): 34.582439587552656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether the success of a zero-shot Chain-of-Thought (CoT) process can be predicted before completion. We discover that a probing classifier, based on LLM representations, performs well \emph{even before a single token is generated}, suggesting that crucial information about the reasoning process is already present in the initial steps representations. In contrast, a strong BERT-based baseline, which relies solely on the generated tokens, performs worse, likely because it depends on shallow linguistic cues rather than deeper reasoning dynamics. Surprisingly, using later reasoning steps does not always improve classification. When additional context is unhelpful, earlier representations resemble later ones more, suggesting LLMs encode key information early. This implies reasoning can often stop early without loss. To test this, we conduct early stopping experiments, showing that truncating CoT reasoning still improves performance over not using CoT at all, though a gap remains compared to full reasoning. However, approaches like supervised learning or reinforcement learning designed to shorten CoT chains could leverage our classifier's guidance to identify when early stopping is effective. Our findings provide insights that may support such methods, helping to optimize CoT's efficiency while preserving its benefits.
- Abstract(参考訳): ゼロショット・チェーン・オブ・ソート(CoT)プロセスの成功を完了前に予測できるかどうかを検討する。
LLM表現に基づく探索分類器は、単一のトークンが生成される前によく 'emph{even} を実行し、推論プロセスに関する決定的な情報が初期ステップ表現にすでに存在していることを示唆する。
対照的に、BERTベースの強力なベースラインは、生成されたトークンのみに依存するが、おそらくはより深い推論力学よりも浅い言語的手がかりに依存するため、より悪いパフォーマンスをする。
驚くべきことに、後続の推論ステップを使用することは、必ずしも分類を改善するとは限らない。
追加のコンテキストが重要でない場合、初期の表現は後続のコンテキストに似ており、LLMが鍵情報を早期にエンコードすることを示唆している。
これは、しばしば損失を伴わずに、推論が早期に停止することを意味する。
これをテストするために、我々は早期停止実験を行い、CoT推論はCoTを全く使わずに性能を向上するが、完全な推論と比較した場合の差は残る。
しかし、CoTチェーンを短くするために設計された教師付き学習や強化学習のようなアプローチは、分類器のガイダンスを利用して、早期停止が有効であるかどうかを特定することができる。
本研究で得られた知見は,CoTの効率を最適化し,有効性を保ちつつ,そのような手法を支持する洞察を与える。
関連論文リスト
- Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks [25.562937159039038]
In-Context Learning (ICL) in Large Language Models (LLM) が自然言語処理の主流の手法として登場した。
ICLはタスク先行の検索に大きく依存しており、タスクを実行するための"学習"は少なくなっている。
驚くべきことに、CoT(Chain-of-Thought)は、大きな言語モデルではICLと同じ後方崩壊に悩まされている。
論文 参考訳(メタデータ) (2024-09-10T03:06:17Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。