Fugu-MT 論文翻訳(概要): ENTP: Encoder-only Next Token Prediction

論文の概要: ENTP: Encoder-only Next Token Prediction

arxiv url: http://arxiv.org/abs/2410.01600v1
Date: Wed, 2 Oct 2024 14:39:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 16:44:34.872597
Title: ENTP: Encoder-only Next Token Prediction
Title（参考訳）: ENTP:エンコーダのみの次のトークン予測
Authors: Ethan Ewer, Daewon Chae, Thomas Zeng, Jinkyu Kim, Kangwook Lee,
Abstract要約: 次世代の予測モデルは、主に因果的注意を持つデコーダのみのトランスフォーマーに依存している。この設計選択は、必要ではなく効率性に関するものだ、と私たちは主張する。デコーダのみのトランスフォーマーは、実際的な理由から依然として良い選択だが、唯一の選択肢ではない。
参考スコア（独自算出の注目度）: 12.35591516507234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Next-token prediction models have predominantly relied on decoder-only Transformers with causal attention, driven by the common belief that causal attention is essential to prevent "cheating" by masking future tokens. We challenge this widely accepted notion and argue that this design choice is about efficiency rather than necessity. While decoder-only Transformers are still a good choice for practical reasons, they are not the only viable option. In this work, we introduce Encoder-only Next Token Prediction (ENTP). We explore the differences between ENTP and decoder-only Transformers in expressive power and complexity, highlighting potential advantages of ENTP. We introduce the Triplet-Counting task and show, both theoretically and experimentally, that while ENTP can perform this task easily, a decoder-only Transformer cannot. Finally, we empirically demonstrate ENTP's superior performance across various realistic tasks, such as length generalization and in-context learning.
Abstract（参考訳）: 次世代の予測モデルは、未来のトークンを隠蔽することで「加熱」を防ぐのに因果的注意が不可欠であるという共通の信念によって、因果的注意を持つデコーダのみのトランスフォーマーに大きく依存している。私たちはこの広く受け入れられている概念に挑戦し、この設計選択は必要ではなく効率性に関するものだと論じます。デコーダのみのトランスフォーマーは、実際的な理由から依然として良い選択だが、唯一の選択肢ではない。本研究では,EncoderのみのNext Token Prediction (ENTP)を紹介する。我々は、ENTPとデコーダのみの変換器の違いを表現力と複雑性で検討し、ENTPの潜在的な利点を浮き彫りにする。我々はTriplet-Countingタスクを導入し、理論上も実験上も、ENTPは容易にこのタスクを実行できるが、デコーダのみのTransformerでは実行できないことを示す。最後に、長さの一般化や文脈内学習など、様々な現実的なタスクにおいて、ENTPの優れた性能を実証的に示す。

関連論文リスト

Learning to Achieve Goals with Belief State Transformers [50.196123952714245]
ビリーフ状態変換器(Belief State Transformer)は、接頭辞と接尾辞の両方を入力として取る次世代の予測器である。 Belief State Transformerは、従来のフォワードオンリーのトランスフォーマーが苦労する課題を解決するために効果的に学習する。
論文参考訳（メタデータ） (2024-10-30T23:26:06Z)
Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction [0.0]
本研究では,Future Token Prediction(FTP)と呼ばれる事前学習手法について検討する。 FTPは、擬似シーケンスに線形かつ拡張的に投影される各トークン位置の埋め込みベクトルを生成する。プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
論文参考訳（メタデータ） (2024-10-23T14:50:15Z)
Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文参考訳（メタデータ） (2024-06-06T17:14:44Z)
PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。 PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。 37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文参考訳（メタデータ） (2023-10-03T05:55:11Z)
LAIT: Efficient Multi-Segment Encoding in Transformers with Layer-Adjustable Interaction [31.895986544484206]
変換器(LAIT)における層間相互作用について紹介する。 LAIT内では、セグメント化された入力は、まず独立に符号化され、次に共同で符号化される。 LAITは高い精度を保ちながら、多くのタスクにおけるFLOPの30～50%の注意を減らすことができる。
論文参考訳（メタデータ） (2023-05-31T06:09:59Z)
Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文参考訳（メタデータ） (2023-05-30T06:47:07Z)
How Powerful are Decoder-Only Transformer Neural Models? [0.0]
GPT-xで採用されている基礎技術のチューリング完全性に対処する最初の研究である。単語埋め込みの空間性/圧縮性はチューリング完全性を維持する上で重要な考慮事項であることを示す。
論文参考訳（メタデータ） (2023-05-26T15:35:43Z)
DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-01-09T16:00:15Z)
What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。 Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。 TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文参考訳（メタデータ） (2022-12-21T15:51:43Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。 Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文参考訳（メタデータ） (2022-11-23T06:56:12Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。 MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文参考訳（メタデータ） (2022-03-03T09:30:55Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。 ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文参考訳（メタデータ） (2021-08-03T18:04:31Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)
Transformer-Based Deep Image Matching for Generalizable Person Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文参考訳（メタデータ） (2021-05-30T05:38:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。