論文の概要: Comparing Generalization in Learning with Limited Numbers of Exemplars:
Transformer vs. RNN in Attractor Dynamics
- arxiv url: http://arxiv.org/abs/2311.10763v1
- Date: Wed, 15 Nov 2023 00:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:49:44.471157
- Title: Comparing Generalization in Learning with Limited Numbers of Exemplars:
Transformer vs. RNN in Attractor Dynamics
- Title(参考訳): 学習における一般化と経験数の比較:トラクターダイナミクスにおける変圧器対RNN
- Authors: Rui Fukushima and Jun Tani
- Abstract要約: 広く認識されている大規模言語モデル(LLM)であるChatGPTは、最近、パフォーマンスのスケーリングに関して大きな注目を集めている。
これにより、TransformerのGIL(Generalization-in-learning)能力に関する重要な疑問が提起される。
我々はTransformerのGIL機能と従来のリカレントニューラルネットワーク(RNN)の機能を比較する。
- 参考スコア(独自算出の注目度): 3.5353632767823497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ChatGPT, a widely-recognized large language model (LLM), has recently gained
substantial attention for its performance scaling, attributed to the billions
of web-sourced natural language sentences used for training. Its underlying
architecture, Transformer, has found applications across diverse fields,
including video, audio signals, and robotic movement. %The crucial question
this raises concerns the Transformer's generalization-in-learning (GIL)
capacity. However, this raises a crucial question about Transformer's
generalization in learning (GIL) capacity. Is ChatGPT's success chiefly due to
the vast dataset used for training, or is there more to the story? To
investigate this, we compared Transformer's GIL capabilities with those of a
traditional Recurrent Neural Network (RNN) in tasks involving attractor
dynamics learning. For performance evaluation, the Dynamic Time Warping (DTW)
method has been employed. Our simulation results suggest that under conditions
of limited data availability, Transformer's GIL abilities are markedly inferior
to those of RNN.
- Abstract(参考訳): 広く認識されている大規模言語モデル(LLM)であるChatGPTは、最近、数十億ものWebソースの自然言語文がトレーニングに使われているため、パフォーマンスのスケーリングにおいて大きな注目を集めている。
その基盤となるアーキテクチャであるTransformerは、ビデオ、オーディオ信号、ロボットの動きなど、さまざまな分野のアプリケーションを見つけている。
これはTransformerのGIL(Generalization-in-learning)能力に関する重要な疑問だ。
しかし、これはtransformerの学習能力(gil)の一般化に関する重要な疑問を提起する。
ChatGPTの成功は、主にトレーニングに使用される膨大なデータセットによるものなのでしょうか?
これを調べるために,transformerのgil能力と従来のrecurrent neural network(rnn)の機能を比較した。
性能評価にdynamic time warping (dtw) 法が採用されている。
シミュレーションの結果,データ可用性に限界がある場合,TransformerのGIL能力はRNNよりも著しく劣っていることがわかった。
関連論文リスト
- Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent [26.764893400499354]
線形ループ変換器は、コンテキスト内学習において、多段階勾配勾配を効率よく実装できることを示す。
この結果から,入力データが一定条件数である場合,$n = O(d)$であれば,線形ループ変換器の誤差は小さくなることがわかった。
論文 参考訳(メタデータ) (2024-10-15T04:44:23Z) - Transformer Explainer: Interactive Learning of Text-Generative Models [65.91049787390692]
Transformer Explainerは、GPT-2モデルを通じてTransformerについて学ぶために非専門家向けに設計されたインタラクティブな可視化ツールである。
ライブのGPT-2インスタンスをユーザのブラウザでローカルに実行し、ユーザが自身の入力を実験し、Transformerの内部コンポーネントとパラメータの協調動作をリアルタイムで観察することを可能にする。
論文 参考訳(メタデータ) (2024-08-08T17:49:07Z) - GTC: GNN-Transformer Co-contrastive Learning for Self-supervised Heterogeneous Graph Representation [0.9249657468385781]
本稿では,GNN-Transformerの協調学習手法を提案し,GTCアーキテクチャを構築する。
The Transformer branch for the Metapath-aware Hop2Token and CG-Hetphormer which can Cooper with GNN to Attentively encoding neighborhood information from different levels。
実際のデータセットでの実験では、GTCは最先端の手法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-22T12:22:44Z) - Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。