Fugu-MT 論文翻訳(概要): On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent

論文の概要: On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent

arxiv url: http://arxiv.org/abs/2312.17007v1
Date: Thu, 28 Dec 2023 13:20:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 16:10:27.965644
Title: On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent
Title（参考訳）: 勾配降下法で学習した過パラメータ変換器の収束率について
Authors: Michael Kohler and Adam Krzyzak
Abstract要約: ChatGPTはGPT4の例である。本稿では,観測データに適合した変圧器ネットワークの誤分類確率に関する理論的上限を示す。
参考スコア（独自算出の注目度）: 12.546007115555827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the most recent and fascinating breakthroughs in artificial intelligence is ChatGPT, a chatbot which can simulate human conversation. ChatGPT is an instance of GPT4, which is a language model based on generative gredictive gransformers. So if one wants to study from a theoretical point of view, how powerful such artificial intelligence can be, one approach is to consider transformer networks and to study which problems one can solve with these networks theoretically. Here it is not only important what kind of models these network can approximate, or how they can generalize their knowledge learned by choosing the best possible approximation to a concrete data set, but also how well optimization of such transformer network based on concrete data set works. In this article we consider all these three different aspects simultaneously and show a theoretical upper bound on the missclassification probability of a transformer network fitted to the observed data. For simplicity we focus in this context on transformer encoder networks which can be applied to define an estimate in the context of a classification problem involving natural language.
Abstract（参考訳）: 人工知能の最も最近かつ興味深いブレークスルーの1つは、人間の会話をシミュレートするチャットボットであるchatgptだ。 chatgpt は gpt4 のインスタンスであり、生成的回帰グランスフォーマーに基づく言語モデルである。ですから,そのような人工知能がいかに強力かという理論的な観点から研究したいのであれば,トランスフォーマーネットワークを考慮し,これらのネットワークでどの問題を理論的に解決できるかを研究する,という方法があるのです。ここでは、これらのネットワークがどのモデルに近似できるのか、あるいは、具体的なデータセットに対する最良の近似を選択することで学習した知識をいかに一般化できるかだけでなく、具体的なデータセットに基づいたトランスフォーマーネットワークの最適化がいかにうまく機能するかが重要である。本稿では,これら3つの異なる側面を同時に検討し,観測データに適合する変圧器ネットワークの誤分類確率に関する理論的上限を示す。本稿では,自然言語を含む分類問題の文脈における推定値の定義に適用可能なトランスフォーマーエンコーダネットワークに焦点をあてる。

関連論文リスト

Universal Approximation Theorem for a Single-Layer Transformer [0.0]
ディープラーニングでは、バックプロパゲーションアルゴリズムによってトレーニングされた多層ニューラルネットワークを採用している。トランスフォーマーは自然言語処理において最先端のパフォーマンスを達成した。本研究では,ReLUアクティベーション付き位置対応フィードフォワードネットワークを付加した自己アテンション層からなる単一層トランスフォーマーが,コンパクト領域上の連続シーケンス・ツー・シーケンスマッピングを任意の精度で実現可能であることを証明した。
論文参考訳（メタデータ） (2025-07-11T11:37:39Z)
Transformers Simulate MLE for Sequence Generation in Bayesian Networks [18.869174453242383]
In-context maximum max estimation (MLE) に基づくベイズネットワークにおける変圧器の自己回帰生成機能について検討する。ベイジアンネットワークの条件確率を文脈に応じて推定できる単純な変圧器モデルが存在することを実証する。さらに、このような変圧器が理論上存在するだけでなく、訓練を通じて効果的に得られることを、広範な実験で実証する。
論文参考訳（メタデータ） (2025-01-05T13:56:51Z)
A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文参考訳（メタデータ） (2024-10-25T15:39:34Z)
ViTCN: Vision Transformer Contrastive Network For Reasoning [15.240082760651987]
本稿では,機械学習モデルの抽象推論能力をテストするために,RAVENというデータセットを提案する。本稿では,Contrastive Perceptual Inference Network (CoPiNet) を用いた以前の研究を基に構築した視覚変換器コントラストネットワークを提案する。この統合は、RAVENデータセット上のピクセルレベルの入力とグローバルワイズ機能から空間時間情報を処理し、推論するマシン能力をさらに強化することを目的としている。
論文参考訳（メタデータ） (2024-03-15T02:01:14Z)
Training toward significance with the decorrelated event classifier transformer neural network [0.0]
自然言語処理では、主要なニューラルネットワークアーキテクチャの1つがトランスフォーマーである。この訓練されたネットワークは、強化された決定木やフィードフォワードネットワークよりも優れた性能を発揮することが判明した。
論文参考訳（メタデータ） (2023-12-31T08:57:29Z)
Transformers are uninterpretable with myopic methods: a case study with bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文参考訳（メタデータ） (2023-12-03T15:34:46Z)
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文参考訳（メタデータ） (2023-11-26T06:56:02Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文参考訳（メタデータ） (2022-09-08T14:12:15Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文参考訳（メタデータ） (2020-10-10T14:04:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。