論文の概要: Comparing Generalization in Learning with Limited Numbers of Exemplars:
Transformer vs. RNN in Attractor Dynamics
- arxiv url: http://arxiv.org/abs/2311.10763v1
- Date: Wed, 15 Nov 2023 00:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:49:44.471157
- Title: Comparing Generalization in Learning with Limited Numbers of Exemplars:
Transformer vs. RNN in Attractor Dynamics
- Title(参考訳): 学習における一般化と経験数の比較:トラクターダイナミクスにおける変圧器対RNN
- Authors: Rui Fukushima and Jun Tani
- Abstract要約: 広く認識されている大規模言語モデル(LLM)であるChatGPTは、最近、パフォーマンスのスケーリングに関して大きな注目を集めている。
これにより、TransformerのGIL(Generalization-in-learning)能力に関する重要な疑問が提起される。
我々はTransformerのGIL機能と従来のリカレントニューラルネットワーク(RNN)の機能を比較する。
- 参考スコア(独自算出の注目度): 3.5353632767823497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ChatGPT, a widely-recognized large language model (LLM), has recently gained
substantial attention for its performance scaling, attributed to the billions
of web-sourced natural language sentences used for training. Its underlying
architecture, Transformer, has found applications across diverse fields,
including video, audio signals, and robotic movement. %The crucial question
this raises concerns the Transformer's generalization-in-learning (GIL)
capacity. However, this raises a crucial question about Transformer's
generalization in learning (GIL) capacity. Is ChatGPT's success chiefly due to
the vast dataset used for training, or is there more to the story? To
investigate this, we compared Transformer's GIL capabilities with those of a
traditional Recurrent Neural Network (RNN) in tasks involving attractor
dynamics learning. For performance evaluation, the Dynamic Time Warping (DTW)
method has been employed. Our simulation results suggest that under conditions
of limited data availability, Transformer's GIL abilities are markedly inferior
to those of RNN.
- Abstract(参考訳): 広く認識されている大規模言語モデル(LLM)であるChatGPTは、最近、数十億ものWebソースの自然言語文がトレーニングに使われているため、パフォーマンスのスケーリングにおいて大きな注目を集めている。
その基盤となるアーキテクチャであるTransformerは、ビデオ、オーディオ信号、ロボットの動きなど、さまざまな分野のアプリケーションを見つけている。
これはTransformerのGIL(Generalization-in-learning)能力に関する重要な疑問だ。
しかし、これはtransformerの学習能力(gil)の一般化に関する重要な疑問を提起する。
ChatGPTの成功は、主にトレーニングに使用される膨大なデータセットによるものなのでしょうか?
これを調べるために,transformerのgil能力と従来のrecurrent neural network(rnn)の機能を比較した。
性能評価にdynamic time warping (dtw) 法が採用されている。
シミュレーションの結果,データ可用性に限界がある場合,TransformerのGIL能力はRNNよりも著しく劣っていることがわかった。
関連論文リスト
- Linear Transformers with Learnable Kernel Functions are Better
In-Context Models [3.588453140011797]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Stabilizing Transformer-Based Action Sequence Generation For Q-Learning [5.707122938235432]
目標は、トランスフォーマーベースのDeep Q-Learningメソッドで、複数の環境で安定している。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:55:04Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。