論文の概要: CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference
- arxiv url: http://arxiv.org/abs/2310.10845v2
- Date: Wed, 14 Aug 2024 20:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 19:14:56.674766
- Title: CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference
- Title(参考訳): CoTFormer: 推論における予算適応型計算コストを備えた階層型アーキテクチャ
- Authors: Amirkeivan Mohtashami, Matteo Pagliardini, Martin Jaggi,
- Abstract要約: 言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
トークンレベルでのChain-of-Thought(CoT)を忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
精度を下げることなく計算コストを大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 36.753384415107774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling language models to larger and deeper sizes has led to significant boosts in performance. Even though the size of these models limits their application in compute-constrained environments, the race to continually develop ever larger and deeper foundational models is underway. At the same time -- regardless of the model size -- task-specific techniques continue to play a pivotal role in achieving optimal downstream performance. One of these techniques, called Chain-of-Thought (CoT), is particularly interesting since, as we point out in this work, it resembles employing a deeper transformer through re-applying the model multiple times. However, a key subtlety in computing the attention of past tokens differentiates CoT from simply applying the model several times. Based on this insight, we propose CoTFormer, a novel architecture which closely mimics CoT at the token level, allowing us to obtain significantly improved accuracies close to much larger models. While applying CoT introduces additional computation costs, we compensate for it by leveraging CoTFormer's special compatibility with token-wise variable depth. Through a compute adaptive model -- which automatically allocates the compute to tokens that need it most -- we show that it is possible to reduce the computation cost significantly without any reduction in accuracy, and with further compute cost reductions possible while maintaining a competitive accuracy.
- Abstract(参考訳): 言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
これらのモデルのサイズは、計算に制約のある環境での適用を制限するが、より大きくより深い基礎的なモデルを継続的に開発するレースが進行中である。
同時に、モデルのサイズに関係なく、タスク固有のテクニックは、最適な下流のパフォーマンスを達成する上で重要な役割を担っています。
CoT(Chain-of-Thought)と呼ばれるこれらのテクニックの1つは特に興味深い。この研究で指摘したように、モデルを何度も再適用することで、より深いトランスフォーマーを採用するようなものだ。
しかし、過去のトークンの注意を計算する上で重要な微妙さは、CoTが単にモデルを数回適用することとの違いである。
この知見に基づいて,トークンレベルでCoTを忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
CoTを適用すると計算コストが増大するが、CoTFormerのトークンワイドな変数深度との特別な互換性を活用して補う。
計算を最も必要としているトークンに自動的に割り当てる計算適応モデルを通じて、精度を低下させることなく計算コストを大幅に削減でき、競争精度を維持しながらさらなる計算コスト削減が可能であることを示す。
関連論文リスト
- Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Multi-Path Transformer is Better: A Case Study on Neural Machine
Translation [35.67070351304121]
パラメータ効率のよいマルチパス構造を用いて,モデル幅がトランスフォーマーモデルに与える影響について検討した。
12のWMT機械翻訳タスクの実験では、同じ数のパラメータで、より浅いマルチパスモデルが、より深いモデルよりも類似またはより優れた性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-10T07:39:57Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Improving Transformer-Kernel Ranking Model Using Conformer and Query
Term Independence [29.442579683405913]
Transformer-Kernel(TK)モデルは、TREC Deep Learningベンチマークで強力なリランクパフォーマンスを示しています。
TKLと呼ばれるTKモデルの変種が開発され、より長い入力シーケンスを効率的に処理するためにローカルの自己意識が組み込まれている。
本稿では,より長い入力列にtkをスケールするための代替手法として,新しい適合層を提案する。
論文 参考訳(メタデータ) (2021-04-19T15:32:34Z) - Multi-Pass Transformer for Machine Translation [51.867982400693194]
我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
論文 参考訳(メタデータ) (2020-09-23T21:22:15Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。