Fugu-MT 論文翻訳(概要): A Meta-Learning Perspective on Transformers for Causal Language Modeling

論文の概要: A Meta-Learning Perspective on Transformers for Causal Language Modeling

arxiv url: http://arxiv.org/abs/2310.05884v1
Date: Mon, 9 Oct 2023 17:27:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-10 22:10:29.381407
Title: A Meta-Learning Perspective on Transformers for Causal Language Modeling
Title（参考訳）: 因果言語モデリングのための変圧器のメタラーニング
Authors: Xinbo Wu, Lav R. Varshney
Abstract要約: Transformerアーキテクチャは、大規模な因果言語モデルの開発において顕著になっている。因果言語モデリングタスクのトレーニングにおいて,トランスフォーマーアーキテクチャのメタラーニングビューを確立する。
参考スコア（独自算出の注目度）: 20.430255724239448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Transformer architecture has become prominent in developing large causal language models. However, mechanisms to explain its capabilities are not well understood. Focused on the training process, here we establish a meta-learning view of the Transformer architecture when trained for the causal language modeling task, by explicating an inner optimization process that may happen within the Transformer. Further, from within the inner optimization, we discover and theoretically analyze a special characteristic of the norms of learned token representations within Transformer-based causal language models. Our analysis is supported by experiments conducted on pre-trained large language models and real-world data.
Abstract（参考訳）: トランスフォーマーアーキテクチャは、大きな因果言語モデルの開発で顕著になった。しかし、その能力を説明するメカニズムはよく分かっていない。本稿では,学習過程に着目し,トランスフォーマ内の内的最適化過程を考察することにより,因果的言語モデリングタスクを訓練した場合のトランスフォーマアーキテクチャのメタラーニングビューを確立する。さらに,インナーオプティマイズの中から,トランスフォーマベース因果言語モデルにおける学習トークン表現の規範の特殊特性を発見し,理論的に解析する。本分析は,事前学習された大規模言語モデルと実世界のデータを用いた実験によって支援される。

関連論文リスト

Contextually Guided Transformers via Low-Rank Adaptation [14.702057924366345]
変換器をベースとした大規模言語モデル(LLM)は、テキスト処理において優れているが、特殊な振る舞いのプロンプトに依存しているため、計算オーバーヘッドが生じる。本稿では,モデル重みにコンテキストをエンコードすることで,明示的なプロンプトの必要性を解消するトランスフォーマーアーキテクチャの修正を提案する。
論文参考訳（メタデータ） (2025-06-06T01:34:39Z)
Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳（メタデータ） (2025-05-29T16:30:30Z)
What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文参考訳（メタデータ） (2024-10-14T18:15:02Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文参考訳（メタデータ） (2024-05-07T17:47:57Z)
Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文参考訳（メタデータ） (2024-02-16T12:44:15Z)
Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文参考訳（メタデータ） (2023-11-29T13:51:04Z)
Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文参考訳（メタデータ） (2022-10-12T17:16:27Z)
Structural Biases for Improving Transformers on Translation into Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文参考訳（メタデータ） (2022-08-11T22:42:24Z)
BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文参考訳（メタデータ） (2022-06-02T01:54:58Z)
Transformer Grammars: Augmenting Transformer Language Models with Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文参考訳（メタデータ） (2022-03-01T17:22:31Z)
Incorporating Residual and Normalization Layers into Analysis of Masked Language Models [29.828669678974983]
我々は、トランスフォーマーの分析範囲を、単に注目パターンから注目ブロック全体まで拡張する。トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。
論文参考訳（メタデータ） (2021-09-15T08:32:20Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。