論文の概要: Breaking through the learning plateaus of in-context learning in Transformer
- arxiv url: http://arxiv.org/abs/2309.06054v3
- Date: Thu, 6 Jun 2024 15:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:49:21.086859
- Title: Breaking through the learning plateaus of in-context learning in Transformer
- Title(参考訳): Transformerにおける文脈内学習の学習台地を突破する
- Authors: Jingwen Fu, Tao Yang, Yuwang Wang, Yan Lu, Nanning Zheng,
- Abstract要約: 文脈学習(In-context learning)、すなわち文脈の例から学ぶことは、Transformerの印象的な能力である。
この文脈内学習スキルを持つための学習用トランスフォーマーは、学習台地の発生により、計算集約的である。
- 参考スコア(独自算出の注目度): 43.558268718293874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning, i.e., learning from context examples, is an impressive ability of Transformer. Training Transformers to possess this in-context learning skill is computationally intensive due to the occurrence of learning plateaus, which are periods within the training process where there is minimal or no enhancement in the model's in-context learning capability. To study the mechanism behind the learning plateaus, we conceptually seperate a component within the model's internal representation that is exclusively affected by the model's weights. We call this the "weights component", and the remainder is identified as the "context component". By conducting meticulous and controlled experiments on synthetic tasks, we note that the persistence of learning plateaus correlates with compromised functionality of the weights component. Recognizing the impaired performance of the weights component as a fundamental behavior drives learning plateaus, we have developed three strategies to expedite the learning of Transformers. The effectiveness of these strategies is further confirmed in natural language processing tasks. In conclusion, our research demonstrates the feasibility of cultivating a powerful in-context learning ability within AI systems in an eco-friendly manner.
- Abstract(参考訳): 文脈学習(In-context learning)、すなわち文脈の例から学ぶことは、Transformerの印象的な能力である。
このインコンテキスト学習技術を身につけるための訓練用トランスフォーマーは、モデルのインコンテキスト学習能力が最小あるいは全く向上しないトレーニングプロセスの期間である学習台地の発生により、計算集約的である。
学習台地の背後にあるメカニズムを研究するため、モデルの内部表現の要素を概念的に分離し、モデルの重みにのみ影響する。
これを"weights component"と呼び、残りを"context component"と特定します。
合成タスクの精密かつ制御された実験を行うことにより,学習台地の持続性は重み成分の損なわれた機能と相関することがわかった。
学習台地を駆動する基本動作として重み成分の性能が損なわれていることを認識し,トランスフォーマーの学習を迅速化する3つの戦略を開発した。
これらの戦略の有効性は、自然言語処理タスクにおいてさらに確認される。
結論として、我々の研究は、エコフレンドリーな方法でAIシステム内で強力なコンテキスト内学習能力を育む可能性を示している。
関連論文リスト
- How Truncating Weights Improves Reasoning in Language Models [49.80959223722325]
特定のグローバルな関連が、特定の重み成分やトランスフォーマーブロックにどのように格納されるかを検討する。
実験的にも理論的にも、トレーニング中にどのように起こるのかを分析します。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Human Curriculum Effects Emerge with In-Context Learning in Neural Networks [15.744573869783972]
簡潔なルールによって管理されるタスクでは、関連する例がトライアルでブロックされると、学習がより堅牢になる。
メタラーニングで訓練されたニューラルネットワークと大規模言語モデルの両方において、同じトレードオフがインコンテキストラーニング(ICL)とともに自然に現れることを示す。
論文 参考訳(メタデータ) (2024-02-13T18:55:27Z) - Interpretable Meta-Learning of Physical Systems [4.343110120255532]
最近のメタラーニング手法はブラックボックスニューラルネットワークに依存しており、計算コストが高く、解釈可能性も限られている。
我々は,学習課題に対するアフィン構造を持つ,より単純な学習モデルを用いて,マルチ環境の一般化を実現することができると論じる。
本稿では,物理系の最先端アルゴリズムと比較することにより,競合一般化性能と計算コストの低さを実証する。
論文 参考訳(メタデータ) (2023-12-01T10:18:50Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文 参考訳(メタデータ) (2023-03-14T13:28:39Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Comparison and Analysis of New Curriculum Criteria for End-to-End ASR [10.698093106994804]
カリキュラム学習は、知識の組織的で構造化された同化が、より速いトレーニングとより良い理解を可能にする能力を持つという観察に基づいて構築される。
我々は,自動音声認識の文脈でカリキュラム学習を採用する。
トレーニングセットに構造を付加するため、外部ニューラルネットワークからのフィードバックを利用するか、モデル自体からのフィードバックを取り入れる複数のスコアリング関数を探索した。
論文 参考訳(メタデータ) (2022-08-10T06:56:58Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - A Combinatorial Perspective on Transfer Learning [27.7848044115664]
モジュラーソリューションの学習によって、目に見えない分散データと潜在的に異なる分散データの両方を効果的に一般化することができるかを検討する。
タスクセグメンテーション,モジュール型学習,メモリベースアンサンブルの組み合わせによって,指数関数的に増加する多くの未確認タスクの一般化がもたらされる。
論文 参考訳(メタデータ) (2020-10-23T09:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。