論文の概要: Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding
- arxiv url: http://arxiv.org/abs/2409.08561v1
- Date: Fri, 13 Sep 2024 06:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:38:30.950866
- Title: Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding
- Title(参考訳): 隠れチェーン・オブ・ソートデコーディングによる大規模言語モデル推論の高速化
- Authors: Tianqiao Liu, Zui Chen, Zitao Liu, Mi Tian, Weiqi Luo,
- Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
- 参考スコア(独自算出の注目度): 14.175444025026508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in tasks requiring reasoning and multi-step problem-solving through the use of chain-of-thought (CoT) prompting. However, generating the full CoT process results in significantly longer output sequences, leading to increased computational costs and latency during inference. To address this challenge, we propose a novel approach to compress the CoT process through semantic alignment, enabling more efficient decoding while preserving the benefits of CoT reasoning. Our method introduces an auxiliary CoT model that learns to generate and compress the full thought process into a compact special token representation semantically aligned with the original CoT output. This compressed representation is then integrated into the input of the Hidden Chain-of-Thought (HCoT) model. The training process follows a two-stage procedure: First, the CoT model is optimized to generate the compressed token representations aligned with the ground-truth CoT outputs using a contrastive loss. Subsequently, with the CoT model parameters frozen, the HCoT model is fine-tuned to generate accurate subsequent predictions conditioned on the prefix instruction and the compressed CoT representations from the CoT model. Extensive experiments across three challenging domains - mathematical reasoning, agent invocation, and question answering - demonstrate that our semantic compression approach achieves competitive or improved performance compared to the full CoT baseline, while providing significant speedups of at least 1.5x in decoding time. Moreover, incorporating contrastive learning objectives further enhances the quality of the compressed representations, leading to better CoT prompting and improved task accuracy. Our work paves the way for more efficient exploitation of multi-step reasoning capabilities in LLMs across a wide range of applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チェーン・オブ・シンクレット(CoT)プロンプトを用いて、推論と多段階の問題解決を必要とするタスクにおいて顕著な能力を示した。
しかし、完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時に計算コストと遅延が増大する。
この課題に対処するため、我々は意味的アライメントを通じてCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しいアプローチを提案する。
提案手法では,完全な思考プロセスの生成と圧縮を学習する補助的なCoTモデルを導入し,元のCoT出力とセマンティックに一致したコンパクトなトークン表現を実現する。
この圧縮表現は、Hdden Chain-of-Thought(HCoT)モデルの入力に統合される。
トレーニングプロセスは2段階の手順に従う: 第一に、CoTモデルは、対照的な損失を用いて、接地したCoT出力と整合した圧縮されたトークン表現を生成するように最適化される。
その後、CoTモデルパラメータを凍結することにより、HCoTモデルを微調整し、プレフィックス命令と圧縮されたCoT表現をCoTモデルから正確な後続予測を生成する。
数学的推論、エージェント呼び出し、質問応答という3つの挑戦領域にわたる大規模な実験は、私たちのセマンティック圧縮アプローチが、完全なCoTベースラインと比較して、競争力または改善されたパフォーマンスを実現し、デコーディング時間において少なくとも1.5倍の大幅なスピードアップを提供することを示した。
さらに、対照的な学習目的を取り入れることで、圧縮された表現の品質がさらに向上し、CoTのプロンプトが向上し、タスク精度が向上する。
我々の研究は、LLMにおける多段階推論機能をより効率的に活用するための道を開いた。
関連論文リスト
- A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる
代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。
CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文 参考訳(メタデータ) (2024-10-07T19:45:09Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Markovian Transformers for Informative Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望である。
最近の研究は、解釈可能性への実践的応用において重要な課題を浮き彫りにした。
本稿では,中間的なCoTテキストによる次トーケン予測を導出し,CoTが因果的負荷分散であることを保証する手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference [36.753384415107774]
言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
トークンレベルでのChain-of-Thought(CoT)を忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
精度を下げることなく計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2023-10-16T21:37:34Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。