論文の概要: On the rate of convergence of an over-parametrized Transformer
classifier learned by gradient descent
- arxiv url: http://arxiv.org/abs/2312.17007v1
- Date: Thu, 28 Dec 2023 13:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:10:27.965644
- Title: On the rate of convergence of an over-parametrized Transformer
classifier learned by gradient descent
- Title(参考訳): 勾配降下法で学習した過パラメータ変換器の収束率について
- Authors: Michael Kohler and Adam Krzyzak
- Abstract要約: ChatGPTはGPT4の例である。
本稿では,観測データに適合した変圧器ネットワークの誤分類確率に関する理論的上限を示す。
- 参考スコア(独自算出の注目度): 12.546007115555827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most recent and fascinating breakthroughs in artificial
intelligence is ChatGPT, a chatbot which can simulate human conversation.
ChatGPT is an instance of GPT4, which is a language model based on generative
gredictive gransformers. So if one wants to study from a theoretical point of
view, how powerful such artificial intelligence can be, one approach is to
consider transformer networks and to study which problems one can solve with
these networks theoretically. Here it is not only important what kind of models
these network can approximate, or how they can generalize their knowledge
learned by choosing the best possible approximation to a concrete data set, but
also how well optimization of such transformer network based on concrete data
set works. In this article we consider all these three different aspects
simultaneously and show a theoretical upper bound on the missclassification
probability of a transformer network fitted to the observed data. For
simplicity we focus in this context on transformer encoder networks which can
be applied to define an estimate in the context of a classification problem
involving natural language.
- Abstract(参考訳): 人工知能の最も最近かつ興味深いブレークスルーの1つは、人間の会話をシミュレートするチャットボットであるchatgptだ。
chatgpt は gpt4 のインスタンスであり、生成的回帰グランスフォーマーに基づく言語モデルである。
ですから,そのような人工知能がいかに強力かという理論的な観点から研究したいのであれば,トランスフォーマーネットワークを考慮し,これらのネットワークでどの問題を理論的に解決できるかを研究する,という方法があるのです。
ここでは、これらのネットワークがどのモデルに近似できるのか、あるいは、具体的なデータセットに対する最良の近似を選択することで学習した知識をいかに一般化できるかだけでなく、具体的なデータセットに基づいたトランスフォーマーネットワークの最適化がいかにうまく機能するかが重要である。
本稿では,これら3つの異なる側面を同時に検討し,観測データに適合する変圧器ネットワークの誤分類確率に関する理論的上限を示す。
本稿では,自然言語を含む分類問題の文脈における推定値の定義に適用可能なトランスフォーマーエンコーダネットワークに焦点をあてる。
関連論文リスト
- A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - ViTCN: Vision Transformer Contrastive Network For Reasoning [15.240082760651987]
本稿では,機械学習モデルの抽象推論能力をテストするために,RAVENというデータセットを提案する。
本稿では,Contrastive Perceptual Inference Network (CoPiNet) を用いた以前の研究を基に構築した視覚変換器コントラストネットワークを提案する。
この統合は、RAVENデータセット上のピクセルレベルの入力とグローバルワイズ機能から空間時間情報を処理し、推論するマシン能力をさらに強化することを目的としている。
論文 参考訳(メタデータ) (2024-03-15T02:01:14Z) - Training toward significance with the decorrelated event classifier transformer neural network [0.0]
自然言語処理では、主要なニューラルネットワークアーキテクチャの1つがトランスフォーマーである。
この訓練されたネットワークは、強化された決定木やフィードフォワードネットワークよりも優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2023-12-31T08:57:29Z) - Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文 参考訳(メタデータ) (2023-12-03T15:34:46Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。