Fugu-MT 論文翻訳(概要): CoTFormer: More Tokens With Attention Make Up For Less Depth

論文の概要: CoTFormer: More Tokens With Attention Make Up For Less Depth

arxiv url: http://arxiv.org/abs/2310.10845v1
Date: Mon, 16 Oct 2023 21:37:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 18:45:21.760554
Title: CoTFormer: More Tokens With Attention Make Up For Less Depth
Title（参考訳）: cotformer: より少ない深さで注意を向けるトークンが増える
Authors: Amirkeivan Mohtashami, Matteo Pagliardini, Martin Jaggi
Abstract要約: CoTFormerは、より深いモデルに匹敵するキャパシティを達成するために暗黙のCoTライクなメカニズムを使用するトランスフォーマーである。実験により,CoTFormersが標準変圧器より大幅に優れており,CoTFormersの有効性が示された。
参考スコア（独自算出の注目度）: 41.30712084692506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The race to continually develop ever larger and deeper foundational models is underway. However, techniques like the Chain-of-Thought (CoT) method continue to play a pivotal role in achieving optimal downstream performance. In this work, we establish an approximate parallel between using chain-of-thought and employing a deeper transformer. Building on this insight, we introduce CoTFormer, a transformer variant that employs an implicit CoT-like mechanism to achieve capacity comparable to a deeper model. Our empirical findings demonstrate the effectiveness of CoTFormers, as they significantly outperform larger standard transformers.
Abstract（参考訳）: より大きくより深い基盤モデルを継続的に開発するレースが進行中である。しかし、Chain-of-Thought(CoT)メソッドのようなテクニックは、最適な下流のパフォーマンスを達成する上で重要な役割を担い続けている。本研究では,チェーン・オブ・シントとより深い変換器を併用した近似的な並列性を確立する。この知見に基づいて,より深いモデルに匹敵するキャパシティを実現するために,暗黙のCoTライクなメカニズムを利用するトランスフォーマー変種であるCoTFormerを紹介する。実験により,CoTFormersが標準変圧器より大幅に優れており,CoTFormersの有効性が示された。

関連論文リスト

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。 DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文参考訳（メタデータ） (2025-03-12T20:04:38Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。 TPAは、メモリ効率とともに改善されたモデル品質を実現する。本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文参考訳（メタデータ） (2025-01-11T03:37:10Z)
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文参考訳（メタデータ） (2024-10-30T16:19:00Z)
Foundation Models on a Budget: Approximating Blocks in Large Vision Models [32.686851504117314]
Transformer Blocks Approximation (TBA) は、ネットワーク内の類似性を活用して、大きな視覚モデルにおける変圧器ブロックを特定し、近似する新しい手法である。 TBAはこれらのブロックを、モデルの他の部分を再トレーニングしたり微調整したりすることなく、軽量でクローズドな変換で置き換える。複数のデータセットにまたがる広範囲な実験を通して,TBAの有効性と一般化性を検証する。
論文参考訳（メタデータ） (2024-10-07T11:35:24Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。 a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文参考訳（メタデータ） (2024-04-30T12:05:48Z)
MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。 MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。 8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
An Adaptive and Scalable ANN-based Model-Order-Reduction Method for Large-Scale TO Designs [22.35243726859667]
トポロジ最適化(TO)は、興味のある最適な性能で構造設計を得るための体系的なアプローチを提供する。ディープラーニングベースのモデルは、プロセスの高速化のために開発されている。 MapNetは、粗いスケールから細かいスケールまでの関心領域をマッピングするニューラルネットワークである。
論文参考訳（メタデータ） (2022-03-20T10:12:24Z)
DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文参考訳（メタデータ） (2022-03-02T15:25:27Z)
DACT-BERT: Differentiable Adaptive Computation Time for an Efficient BERT Inference [3.375478015832455]
DACT-BERT(DACT-BERT) は, BERT のようなモデルに対して, 微分可能な適応計算時間戦略である。 DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
論文参考訳（メタデータ） (2021-09-24T04:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。