論文の概要: CoTFormer: More Tokens With Attention Make Up For Less Depth
- arxiv url: http://arxiv.org/abs/2310.10845v1
- Date: Mon, 16 Oct 2023 21:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:45:21.760554
- Title: CoTFormer: More Tokens With Attention Make Up For Less Depth
- Title(参考訳): cotformer: より少ない深さで注意を向けるトークンが増える
- Authors: Amirkeivan Mohtashami, Matteo Pagliardini, Martin Jaggi
- Abstract要約: CoTFormerは、より深いモデルに匹敵するキャパシティを達成するために暗黙のCoTライクなメカニズムを使用するトランスフォーマーである。
実験により,CoTFormersが標準変圧器より大幅に優れており,CoTFormersの有効性が示された。
- 参考スコア(独自算出の注目度): 41.30712084692506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The race to continually develop ever larger and deeper foundational models is
underway. However, techniques like the Chain-of-Thought (CoT) method continue
to play a pivotal role in achieving optimal downstream performance. In this
work, we establish an approximate parallel between using chain-of-thought and
employing a deeper transformer. Building on this insight, we introduce
CoTFormer, a transformer variant that employs an implicit CoT-like mechanism to
achieve capacity comparable to a deeper model. Our empirical findings
demonstrate the effectiveness of CoTFormers, as they significantly outperform
larger standard transformers.
- Abstract(参考訳): より大きくより深い基盤モデルを継続的に開発するレースが進行中である。
しかし、Chain-of-Thought(CoT)メソッドのようなテクニックは、最適な下流のパフォーマンスを達成する上で重要な役割を担い続けている。
本研究では,チェーン・オブ・シントとより深い変換器を併用した近似的な並列性を確立する。
この知見に基づいて,より深いモデルに匹敵するキャパシティを実現するために,暗黙のCoTライクなメカニズムを利用するトランスフォーマー変種であるCoTFormerを紹介する。
実験により,CoTFormersが標準変圧器より大幅に優れており,CoTFormersの有効性が示された。
関連論文リスト
- TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - An Adaptive and Scalable ANN-based Model-Order-Reduction Method for
Large-Scale TO Designs [22.35243726859667]
トポロジ最適化(TO)は、興味のある最適な性能で構造設計を得るための体系的なアプローチを提供する。
ディープラーニングベースのモデルは、プロセスの高速化のために開発されている。
MapNetは、粗いスケールから細かいスケールまでの関心領域をマッピングするニューラルネットワークである。
論文 参考訳(メタデータ) (2022-03-20T10:12:24Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - DACT-BERT: Differentiable Adaptive Computation Time for an Efficient
BERT Inference [3.375478015832455]
DACT-BERT(DACT-BERT) は, BERT のようなモデルに対して, 微分可能な適応計算時間戦略である。
DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。
我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
論文 参考訳(メタデータ) (2021-09-24T04:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。