Fugu-MT 論文翻訳(概要): Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

論文の概要: Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

arxiv url: http://arxiv.org/abs/2412.13171v1
Date: Tue, 17 Dec 2024 18:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.828816
Title: Compressed Chain of Thought: Efficient Reasoning Through Dense Representations
Title（参考訳）: 思考の圧縮鎖:高密度表現による効率的な推論
Authors: Jeffrey Cheng, Benjamin Van Durme,
Abstract要約: CoT(Chain-of- Thought)デコーディングにより、言語モデルでは、デコーディングにおける高ジェネレーションレイテンシーを犠牲にして、推論性能を改善することができる。最近の提案では、推論時に特別なトークンを参照して、余分な計算を可能にするコンテプショントークンの変種について検討している。本稿では,CCoT(Compressed Chain-of-Thought)を提案する。
参考スコア（独自算出の注目度）: 37.41699761967978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-thought (CoT) decoding enables language models to improve reasoning performance at the cost of high generation latency in decoding. Recent proposals have explored variants of contemplation tokens, a term we introduce that refers to special tokens used during inference to allow for extra computation. Prior work has considered fixed-length sequences drawn from a discrete set of embeddings as contemplation tokens. Here we propose Compressed Chain-of-Thought (CCoT), a framework to generate contentful and continuous contemplation tokens of variable sequence length. The generated contemplation tokens are compressed representations of explicit reasoning chains, and our method can be applied to off-the-shelf decoder language models. Through experiments, we illustrate how CCoT enables additional reasoning over dense contentful representations to achieve corresponding improvements in accuracy. Moreover, the reasoning improvements can be adaptively modified on demand by controlling the number of contemplation tokens generated.
Abstract（参考訳）: CoT(Chain-of- Thought)デコーディングにより、言語モデルでは、デコーディングにおける高ジェネレーションレイテンシーを犠牲にして、推論性能を改善することができる。最近の提案では、推論時に特別なトークンを参照して、余分な計算を可能にするコンテプショントークンの変種について検討している。以前の研究は、離散的な埋め込みの集合から引き出された固定長列を概念トークンとして検討してきた。本稿では,CCoT(Compressed Chain-of-Thought)を提案する。生成されたコンテプレーショントークンは明示的推論チェーンの圧縮表現であり,本手法は既製のデコーダ言語モデルに適用できる。実験を通じて、CCoTが高密度な内容表現に対してさらなる推論を可能にし、精度の向上を実現する方法について説明する。さらに、導出トークン数を制御することにより、要求に応じて推論の改善を適応的に変更することができる。

関連論文リスト

Single-pass Adaptive Image Tokenization for Minimum Program Search [75.59409288259151]
本稿では,単一前方通過における画像に対する適切なトークン数を予測する単一パス適応型トークン化器KARLを提案する。 KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
論文参考訳（メタデータ） (2025-07-10T17:59:53Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文参考訳（メタデータ） (2025-05-21T17:29:15Z)
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文参考訳（メタデータ） (2025-03-20T17:59:59Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Speculative Decoding for Multi-Sample Inference [21.64693536216534]
マルチサンプル推論シナリオに適した新しい投機的復号法を提案する。提案手法は並列生成経路の本質的なコンセンサスを利用して高品質なドラフトトークンを合成する。
論文参考訳（メタデータ） (2025-03-07T11:15:36Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
LightThinker: Thinking Step-by-Step Compression [53.8069487638972]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-21T16:57:22Z)
Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning [46.43130011147807]
特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。 SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
論文参考訳（メタデータ） (2024-12-19T12:06:24Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文参考訳（メタデータ） (2024-04-24T09:30:00Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文参考訳（メタデータ） (2023-11-15T14:15:30Z)
Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文参考訳（メタデータ） (2023-10-09T05:53:05Z)
Denoising-Contrastive Alignment for Continuous Sign Language Recognition [22.800767994061175]
連続手話認識は,手話ビデオからテキストグルースへの符号認識を目的としている。現在のクロスモダリティアライメントパラダイムは、ビデオ表現を導くためにテキスト文法の役割を無視することが多い。本稿では,映像の表現性を高めるために,Denoising-Contrastive Alignmentパラダイムを提案する。
論文参考訳（メタデータ） (2023-05-05T15:20:27Z)
Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文参考訳（メタデータ） (2020-10-07T21:02:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。