論文の概要: A Meta-Learning Perspective on Transformers for Causal Language Modeling
- arxiv url: http://arxiv.org/abs/2310.05884v1
- Date: Mon, 9 Oct 2023 17:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 22:10:29.381407
- Title: A Meta-Learning Perspective on Transformers for Causal Language Modeling
- Title(参考訳): 因果言語モデリングのための変圧器のメタラーニング
- Authors: Xinbo Wu, Lav R. Varshney
- Abstract要約: Transformerアーキテクチャは、大規模な因果言語モデルの開発において顕著になっている。
因果言語モデリングタスクのトレーニングにおいて,トランスフォーマーアーキテクチャのメタラーニングビューを確立する。
- 参考スコア(独自算出の注目度): 20.430255724239448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has become prominent in developing large causal
language models. However, mechanisms to explain its capabilities are not well
understood. Focused on the training process, here we establish a meta-learning
view of the Transformer architecture when trained for the causal language
modeling task, by explicating an inner optimization process that may happen
within the Transformer. Further, from within the inner optimization, we
discover and theoretically analyze a special characteristic of the norms of
learned token representations within Transformer-based causal language models.
Our analysis is supported by experiments conducted on pre-trained large
language models and real-world data.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、大きな因果言語モデルの開発で顕著になった。
しかし、その能力を説明するメカニズムはよく分かっていない。
本稿では,学習過程に着目し,トランスフォーマ内の内的最適化過程を考察することにより,因果的言語モデリングタスクを訓練した場合のトランスフォーマアーキテクチャのメタラーニングビューを確立する。
さらに,インナーオプティマイズの中から,トランスフォーマベース因果言語モデルにおける学習トークン表現の規範の特殊特性を発見し,理論的に解析する。
本分析は,事前学習された大規模言語モデルと実世界のデータを用いた実験によって支援される。
関連論文リスト
- Linear Transformers with Learnable Kernel Functions are Better
In-Context Models [3.588453140011797]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (2022-10-12T17:16:27Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Incorporating Residual and Normalization Layers into Analysis of Masked
Language Models [29.828669678974983]
我々は、トランスフォーマーの分析範囲を、単に注目パターンから注目ブロック全体まで拡張する。
トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。
論文 参考訳(メタデータ) (2021-09-15T08:32:20Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。