Fugu-MT 論文翻訳(概要): Why Are Positional Encodings Nonessential for Deep Autoregressive Transformers? Revisiting a Petroglyph

論文の概要: Why Are Positional Encodings Nonessential for Deep Autoregressive Transformers? Revisiting a Petroglyph

arxiv url: http://arxiv.org/abs/2501.00659v1
Date: Tue, 31 Dec 2024 22:12:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.932248
Title: Why Are Positional Encodings Nonessential for Deep Autoregressive Transformers? Revisiting a Petroglyph
Title（参考訳）: 深部自己回帰変換器における位置エンコーディングはなぜ不要か : ペトログリフの再検討
Authors: Kazuki Irie,
Abstract要約: 自動回帰変換言語モデルは、明示的なPEを必要とせずに、置換トークンでシーケンスを区別することができる。この結果はよく散布されなかったようで、最近になって再発見された。ここでは,多層自己回帰変換器において明示的なPEが重要でない理由について,長年にわたる説明をレビューする。
参考スコア（独自算出の注目度）: 15.625151951772509
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Do autoregressive Transformer language models require explicit positional encodings (PEs)? The answer is "no" as long as they have more than one layer -- they can distinguish sequences with permuted tokens without requiring explicit PEs. This property has been known since early efforts (those contemporary with GPT-2) adopting the Transformer for language modeling. However, this result does not appear to have been well disseminated and was even rediscovered recently. This may be partially due to a sudden growth of the language modeling community after the advent of GPT-2, but perhaps also due to the lack of a clear explanation in prior publications, despite being commonly understood by practitioners in the past. Here we review this long-forgotten explanation why explicit PEs are nonessential for multi-layer autoregressive Transformers (in contrast, one-layer models require PEs to discern order information of their input tokens). We also review the origin of this result, and hope to re-establish it as a common knowledge.
Abstract（参考訳）: 自動回帰変換言語モデルは明示的な位置符号化(PE)を必要とするか? 答えは"ノー"で、複数の層がある限り -- 明示的なPEを必要とせずに、置換トークンでシーケンスを区別できる。この特性は、言語モデリングにTransformerを採用した初期の取り組み(GPT-2と同時代のもの)から知られていた。しかし、この結果はよく散布されなかったようで、最近になって再発見された。これは、GPT-2の出現以降の言語モデリングコミュニティの急激な成長によるものかも知れないが、また、過去の実践者がよく理解していたにもかかわらず、以前の出版物に明確な説明が欠けているためかもしれない。ここでは,多層自己回帰変換器において明示的なPEが重要でない理由を,長年にわたって説明してきた(一方,一層モデルでは,PEが入力トークンの順序情報を識別する必要がある)。また、この結果の出所を概観し、共通知識として再確立することを望んでいます。

関連論文リスト

Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文参考訳（メタデータ） (2024-08-29T03:50:24Z)
Transformer Explainer: Interactive Learning of Text-Generative Models [65.91049787390692]
Transformer Explainerは、GPT-2モデルを通じてTransformerについて学ぶために非専門家向けに設計されたインタラクティブな可視化ツールである。ライブのGPT-2インスタンスをユーザのブラウザでローカルに実行し、ユーザが自身の入力を実験し、Transformerの内部コンポーネントとパラメータの協調動作をリアルタイムで観察することを可能にする。
論文参考訳（メタデータ） (2024-08-08T17:49:07Z)
Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文参考訳（メタデータ） (2024-03-14T17:59:14Z)
How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文参考訳（メタデータ） (2024-02-08T16:24:44Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。 PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。 2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文参考訳（メタデータ） (2023-10-19T16:15:15Z)
Functional Interpolation for Relative Positions Improves Long Context Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。 FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文参考訳（メタデータ） (2023-10-06T17:59:11Z)
Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文参考訳（メタデータ） (2023-06-01T17:44:35Z)
The Impact of Positional Encoding on Length Generalization in Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文参考訳（メタデータ） (2023-05-31T00:29:55Z)
Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文参考訳（メタデータ） (2022-12-20T18:58:48Z)
Block-Skim: Efficient Question Answering for Transformer [25.429122678247452]
本稿では,トランスフォーマーの性能向上と高速化を目的として,高層層で不要なコンテキストをスキップするBlock-Skimを提案する。さらに,下層の早期に不要な位置に対応する隠蔽状態の訓練を行い,推定時間の大幅な高速化を実現した。 Block-Skimは異なるデータセットでのQAモデルの精度を改善し、BERTベースモデルの3倍のスピードアップを達成する。
論文参考訳（メタデータ） (2021-12-16T01:45:33Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors [15.348047288817478]
我々は,変圧器因子の線形重ね合わせとして,辞書学習を用いて「ブラックボックス」を開くことを提案する。可視化により,変換因子によって得られた階層的意味構造を実演する。この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が得られればと思っています。
論文参考訳（メタデータ） (2021-03-29T20:51:33Z)
Segatron: Segment-Aware Transformer for Language Modeling and Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:38:27Z)
Transformers as Soft Reasoners over Language [33.291806251021185]
本稿では,事実と規則を自然言語文として提供し,形式表現をバイパスする問題について検討する。我々は、合成されたデータを用いて、これらの文に対する推論(または推論)をエミュレートするようにトランスフォーマーを訓練する。 RuleTakersと呼ばれる私たちのモデルは、この種の言語に対するソフトな推論が学習可能であるという、最初の実証的なデモンストレーションを提供します。
論文参考訳（メタデータ） (2020-02-14T04:23:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。