論文の概要: On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent
- arxiv url: http://arxiv.org/abs/2312.17007v2
- Date: Thu, 20 Jun 2024 09:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:58:16.048915
- Title: On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent
- Title(参考訳): 勾配降下法で学習した過パラメータ変換器の収束率について
- Authors: Michael Kohler, Adam Krzyzak,
- Abstract要約: ChatGPTはGPT4の例である。
本稿では,観測データに適合した変圧器ネットワークの誤分類確率に関する理論的上限を示す。
- 参考スコア(独自算出の注目度): 10.619901778151336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most recent and fascinating breakthroughs in artificial intelligence is ChatGPT, a chatbot which can simulate human conversation. ChatGPT is an instance of GPT4, which is a language model based on generative gredictive gransformers. So if one wants to study from a theoretical point of view, how powerful such artificial intelligence can be, one approach is to consider transformer networks and to study which problems one can solve with these networks theoretically. Here it is not only important what kind of models these network can approximate, or how they can generalize their knowledge learned by choosing the best possible approximation to a concrete data set, but also how well optimization of such transformer network based on concrete data set works. In this article we consider all these three different aspects simultaneously and show a theoretical upper bound on the missclassification probability of a transformer network fitted to the observed data. For simplicity we focus in this context on transformer encoder networks which can be applied to define an estimate in the context of a classification problem involving natural language.
- Abstract(参考訳): 人間の会話をシミュレートできるチャットボットChatGPT。
ChatGPTはGPT4の例である。
ですから,そのような人工知能がどれほど強力かという理論的な観点から研究したいのであれば,トランスフォーマーネットワークを考慮し,これらのネットワークでどの問題を理論的に解決できるかを研究する,という方法があるのです。
ここでは、これらのネットワークがどのモデルに近似できるのか、あるいは、具体的なデータセットに対する最良の近似を選択することで学習した知識をいかに一般化できるかだけでなく、具体的なデータセットに基づいたトランスフォーマーネットワークの最適化がいかにうまく機能するかが重要である。
本稿では,これら3つの異なる側面を同時に検討し,観測データに適合する変圧器ネットワークの誤分類確率に関する理論的上限を示す。
本稿では,自然言語を含む分類問題の文脈における推定値の定義に適用可能なトランスフォーマーエンコーダネットワークに焦点をあてる。
関連論文リスト
- Transformers Simulate MLE for Sequence Generation in Bayesian Networks [18.869174453242383]
In-context maximum max estimation (MLE) に基づくベイズネットワークにおける変圧器の自己回帰生成機能について検討する。
ベイジアンネットワークの条件確率を文脈に応じて推定できる単純な変圧器モデルが存在することを実証する。
さらに、このような変圧器が理論上存在するだけでなく、訓練を通じて効果的に得られることを、広範な実験で実証する。
論文 参考訳(メタデータ) (2025-01-05T13:56:51Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Training toward significance with the decorrelated event classifier transformer neural network [0.0]
自然言語処理では、主要なニューラルネットワークアーキテクチャの1つがトランスフォーマーである。
この訓練されたネットワークは、強化された決定木やフィードフォワードネットワークよりも優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2023-12-31T08:57:29Z) - Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文 参考訳(メタデータ) (2023-12-03T15:34:46Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。