論文の概要: CoTFormer: More Tokens With Attention Make Up For Less Depth
- arxiv url: http://arxiv.org/abs/2310.10845v1
- Date: Mon, 16 Oct 2023 21:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:45:21.760554
- Title: CoTFormer: More Tokens With Attention Make Up For Less Depth
- Title(参考訳): cotformer: より少ない深さで注意を向けるトークンが増える
- Authors: Amirkeivan Mohtashami, Matteo Pagliardini, Martin Jaggi
- Abstract要約: CoTFormerは、より深いモデルに匹敵するキャパシティを達成するために暗黙のCoTライクなメカニズムを使用するトランスフォーマーである。
実験により,CoTFormersが標準変圧器より大幅に優れており,CoTFormersの有効性が示された。
- 参考スコア(独自算出の注目度): 41.30712084692506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The race to continually develop ever larger and deeper foundational models is
underway. However, techniques like the Chain-of-Thought (CoT) method continue
to play a pivotal role in achieving optimal downstream performance. In this
work, we establish an approximate parallel between using chain-of-thought and
employing a deeper transformer. Building on this insight, we introduce
CoTFormer, a transformer variant that employs an implicit CoT-like mechanism to
achieve capacity comparable to a deeper model. Our empirical findings
demonstrate the effectiveness of CoTFormers, as they significantly outperform
larger standard transformers.
- Abstract(参考訳): より大きくより深い基盤モデルを継続的に開発するレースが進行中である。
しかし、Chain-of-Thought(CoT)メソッドのようなテクニックは、最適な下流のパフォーマンスを達成する上で重要な役割を担い続けている。
本研究では,チェーン・オブ・シントとより深い変換器を併用した近似的な並列性を確立する。
この知見に基づいて,より深いモデルに匹敵するキャパシティを実現するために,暗黙のCoTライクなメカニズムを利用するトランスフォーマー変種であるCoTFormerを紹介する。
実験により,CoTFormersが標準変圧器より大幅に優れており,CoTFormersの有効性が示された。
関連論文リスト
- Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Multi-Path Transformer is Better: A Case Study on Neural Machine
Translation [35.67070351304121]
パラメータ効率のよいマルチパス構造を用いて,モデル幅がトランスフォーマーモデルに与える影響について検討した。
12のWMT機械翻訳タスクの実験では、同じ数のパラメータで、より浅いマルチパスモデルが、より深いモデルよりも類似またはより優れた性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-10T07:39:57Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Improving Transformer-Kernel Ranking Model Using Conformer and Query
Term Independence [29.442579683405913]
Transformer-Kernel(TK)モデルは、TREC Deep Learningベンチマークで強力なリランクパフォーマンスを示しています。
TKLと呼ばれるTKモデルの変種が開発され、より長い入力シーケンスを効率的に処理するためにローカルの自己意識が組み込まれている。
本稿では,より長い入力列にtkをスケールするための代替手法として,新しい適合層を提案する。
論文 参考訳(メタデータ) (2021-04-19T15:32:34Z) - Multi-Pass Transformer for Machine Translation [51.867982400693194]
我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
論文 参考訳(メタデータ) (2020-09-23T21:22:15Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。