論文の概要: A completely uniform transformer for parity
- arxiv url: http://arxiv.org/abs/2501.02535v1
- Date: Sun, 05 Jan 2025 13:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:43.280372
- Title: A completely uniform transformer for parity
- Title(参考訳): パリティのための完全一様変圧器
- Authors: Alexander Kozachinskiy, Tomasz Steifer,
- Abstract要約: パリティ言語を認識する3層定数次元変換器を構築した。
これにより、入力長に応じて位置符号化を使用するChiangとCholakの構築が改善される。
- 参考スコア(独自算出の注目度): 49.32130498861987
- License:
- Abstract: We construct a 3-layer constant-dimension transformer, recognizing the parity language, where neither parameter matrices nor the positional encoding depend on the input length. This improves upon a construction of Chiang and Cholak who use a positional encoding, depending on the input length (but their construction has 2 layers).
- Abstract(参考訳): パラメータ行列も位置符号化も入力長に依存しないパリティ言語を認識可能な3層定数次元変換器を構築する。
これにより、入力長に応じて位置符号化を使用するChiangとCholakの構築が改善される(ただし、その構成は2層)。
関連論文リスト
- Theoretical Analysis of Hierarchical Language Recognition and Generation by Transformers without Positional Encoding [32.01426831450348]
因果マスキングと開始トークンによってトランスフォーマーは階層構造内の位置情報と深さを計算することができることを示す。
位置エンコーディングのないトランスフォーマーは階層型言語を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-16T09:56:01Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Key-Value Transformer [47.64219291655723]
キー値定式化(KV)は2次元位置符号化をアテンション行列に組み込んだ非対称版とともに対称アテンションマップを生成する。
実験には3つのタスクタイプ - 合成(リストの反転やソートなど)、視覚(mnistまたはcifar classification)、NLP - が含まれる。
論文 参考訳(メタデータ) (2023-05-28T20:26:06Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Overcoming a Theoretical Limitation of Self-Attention [20.539191533339427]
Hahn氏は、単一の入力シンボルに依存する言語では、トランスフォーマーの分類決定は信頼性が低下することを示している。
奇数 1 のビット文字列の言語 PARITY と 1 から始まるビット文字列の言語 FIRST の2つの言語を用いて、この制限について検討する。
論文 参考訳(メタデータ) (2022-02-24T16:14:29Z) - Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文 参考訳(メタデータ) (2021-05-18T09:52:32Z) - ETC: Encoding Long and Structured Inputs in Transformers [17.763733356907547]
本稿では,新しいトランスフォーマーアーキテクチャである拡張トランスフォーマー構築(ETC)を提案し,標準トランスフォーマーアーキテクチャの2つの課題に対処する。
より長い入力に注意を向けるために,グローバルトークンと正規入力トークンの間に,新たなグローバルローカルアテンション機構を導入する。
長文および/または構造化された入力を必要とする4つの自然言語データセットについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-17T23:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。