論文の概要: CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference
- arxiv url: http://arxiv.org/abs/2310.10845v2
- Date: Wed, 14 Aug 2024 20:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-16 19:14:56.674766
- Title: CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference
- Title(参考訳): CoTFormer: 推論における予算適応型計算コストを備えた階層型アーキテクチャ
- Authors: Amirkeivan Mohtashami, Matteo Pagliardini, Martin Jaggi,
- Abstract要約: 言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
トークンレベルでのChain-of-Thought(CoT)を忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
精度を下げることなく計算コストを大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 36.753384415107774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling language models to larger and deeper sizes has led to significant boosts in performance. Even though the size of these models limits their application in compute-constrained environments, the race to continually develop ever larger and deeper foundational models is underway. At the same time -- regardless of the model size -- task-specific techniques continue to play a pivotal role in achieving optimal downstream performance. One of these techniques, called Chain-of-Thought (CoT), is particularly interesting since, as we point out in this work, it resembles employing a deeper transformer through re-applying the model multiple times. However, a key subtlety in computing the attention of past tokens differentiates CoT from simply applying the model several times. Based on this insight, we propose CoTFormer, a novel architecture which closely mimics CoT at the token level, allowing us to obtain significantly improved accuracies close to much larger models. While applying CoT introduces additional computation costs, we compensate for it by leveraging CoTFormer's special compatibility with token-wise variable depth. Through a compute adaptive model -- which automatically allocates the compute to tokens that need it most -- we show that it is possible to reduce the computation cost significantly without any reduction in accuracy, and with further compute cost reductions possible while maintaining a competitive accuracy.
- Abstract(参考訳): 言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
これらのモデルのサイズは、計算に制約のある環境での適用を制限するが、より大きくより深い基礎的なモデルを継続的に開発するレースが進行中である。
同時に、モデルのサイズに関係なく、タスク固有のテクニックは、最適な下流のパフォーマンスを達成する上で重要な役割を担っています。
CoT(Chain-of-Thought)と呼ばれるこれらのテクニックの1つは特に興味深い。この研究で指摘したように、モデルを何度も再適用することで、より深いトランスフォーマーを採用するようなものだ。
しかし、過去のトークンの注意を計算する上で重要な微妙さは、CoTが単にモデルを数回適用することとの違いである。
この知見に基づいて,トークンレベルでCoTを忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
CoTを適用すると計算コストが増大するが、CoTFormerのトークンワイドな変数深度との特別な互換性を活用して補う。
計算を最も必要としているトークンに自動的に割り当てる計算適応モデルを通じて、精度を低下させることなく計算コストを大幅に削減でき、競争精度を維持しながらさらなる計算コスト削減が可能であることを示す。
関連論文リスト
- Pretraining with Token-Level Adaptive Latent Chain-of-Thought [44.19871205975474]
パラメータの増加とトレーニングデータによる大規模言語モデルのスケーリングは、高品質コーパスの制限と通信コストの増大によって、ますます制限されている。
この研究は、潜在チェーン・オブ・ソート(CoT)を事前学習に内在させることにより、パラメータを拡張せずにトーケン毎の計算量を増やすという代替軸を探求する。
本稿では,各トークンを出力する前に可変長遅延CoT軌道を生成するToken-Level Adaptive Latent CoT(Adaptive Latent CoT)による事前学習を提案する。
Llamaアーキテクチャによる実験によると、適応潜在CoTは、訓練の少ないFLでも、言語モデリングの難易度と幅広い下流の精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-09T02:49:15Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - One-Shot Knowledge Transfer for Scalable Person Re-Identification [39.917962639543696]
人身認証(ReID)におけるエッジコンピューティングは、中央クラウドサーバの負荷を低減し、ユーザのプライバシを確保するために不可欠である。
我々は,教師モデルの知識を重みチェーンと呼ばれる中間キャリアに集約する,OSKTという新しい知識継承手法を提案する。
OSKTは、各ターゲットモデルに対する頻繁な計算を不要にするワンタイムの知識伝達の利点により、最先端の圧縮手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-11-08T14:06:23Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。
DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。
十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文 参考訳(メタデータ) (2025-03-12T20:04:38Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Foundation Models on a Budget: Approximating Blocks in Large Vision Models [32.686851504117314]
Transformer Blocks Approximation (TBA) は、ネットワーク内の類似性を活用して、大きな視覚モデルにおける変圧器ブロックを特定し、近似する新しい手法である。
TBAはこれらのブロックを、モデルの他の部分を再トレーニングしたり微調整したりすることなく、軽量でクローズドな変換で置き換える。
複数のデータセットにまたがる広範囲な実験を通して,TBAの有効性と一般化性を検証する。
論文 参考訳(メタデータ) (2024-10-07T11:35:24Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Deep Tensor Network [9.910562011343009]
我々は、テンソル代数の表現力とニューラルネットワーク設計を統一することで、注意を再構築する新しいアーキテクチャフレームワークであるDeep Networkを紹介する。
我々のアプローチは、従来のドット積の注意とその後の線形時間近似を超越して、高次統計依存を捉える。
論文 参考訳(メタデータ) (2023-11-18T14:41:33Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - An Adaptive and Scalable ANN-based Model-Order-Reduction Method for
Large-Scale TO Designs [22.35243726859667]
トポロジ最適化(TO)は、興味のある最適な性能で構造設計を得るための体系的なアプローチを提供する。
ディープラーニングベースのモデルは、プロセスの高速化のために開発されている。
MapNetは、粗いスケールから細かいスケールまでの関心領域をマッピングするニューラルネットワークである。
論文 参考訳(メタデータ) (2022-03-20T10:12:24Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - DACT-BERT: Differentiable Adaptive Computation Time for an Efficient
BERT Inference [3.375478015832455]
DACT-BERT(DACT-BERT) は, BERT のようなモデルに対して, 微分可能な適応計算時間戦略である。
DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。
我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
論文 参考訳(メタデータ) (2021-09-24T04:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。