論文の概要: Breaking through the learning plateaus of in-context learning in
Transformer
- arxiv url: http://arxiv.org/abs/2309.06054v2
- Date: Mon, 29 Jan 2024 07:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:09:58.835910
- Title: Breaking through the learning plateaus of in-context learning in
Transformer
- Title(参考訳): Transformerにおける文脈内学習の学習台地を突破する
- Authors: Jingwen Fu, Tao Yang, Yuwang Wang, Yan Lu, Nanning Zheng
- Abstract要約: 文脈学習(In-context learning)、すなわち文脈の例から学ぶことは、Transformerの印象的な能力である。
この文脈内学習スキルを持つための学習用トランスフォーマーは、学習台地の発生により、計算集約的である。
- 参考スコア(独自算出の注目度): 46.73131236261085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning, i.e., learning from context examples, is an impressive
ability of Transformer. Training Transformers to possess this in-context
learning skill is computationally intensive due to the occurrence of learning
plateaus, which are periods within the training process where there is minimal
or no enhancement in the model's in-context learning capability. To study the
mechanism behind the learning plateaus, we conceptually seperate a component
within the model's internal representation that is exclusively affected by the
model's weights. We call this the "weights component", and the remainder is
identified as the "context component". By conducting meticulous and controlled
experiments on synthetic tasks, we note that the persistence of learning
plateaus correlates with compromised functionality of the weights component.
Recognizing the impaired performance of the weights component as a fundamental
behavior drives learning plateaus, we have developed three strategies to
expedite the learning of Transformers. The effectiveness of these strategies is
further confirmed in natural language processing tasks. In conclusion, our
research demonstrates the feasibility of cultivating a powerful in-context
learning ability within AI systems in an eco-friendly manner.
- Abstract(参考訳): 文脈学習、すなわち文脈の例から学ぶことは、Transformerの素晴らしい能力である。
このインコンテキスト学習技術を身につけるための訓練用トランスフォーマーは、モデルのインコンテキスト学習能力が最小あるいは全く向上しないトレーニングプロセスの期間である学習台地の発生により、計算集約的である。
学習台地の背後にあるメカニズムを研究するため、モデルの内部表現の要素を概念的に分離し、モデルの重みにのみ影響する。
これを"weights component"と呼び、残りは"context component"として識別します。
合成タスクの精密かつ制御された実験を行うことにより,学習台地の持続性は重み成分の損なわれた機能と相関することがわかった。
基本動作として重み成分の性能を損なうことを認識し,トランスフォーマーの学習を迅速化する3つの戦略を開発した。
これらの戦略の有効性は自然言語処理タスクにおいてさらに確認される。
本研究は,aiシステムにおける強力な文脈内学習能力を,環境にやさしい方法で育成できることを実証する。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。
学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。
このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文 参考訳(メタデータ) (2024-09-05T17:58:28Z) - How Truncating Weights Improves Reasoning in Language Models [49.80959223722325]
特定のグローバルな関連が、特定の重み成分やトランスフォーマーブロックにどのように格納されるかを検討する。
実験的にも理論的にも、トレーニング中にどのように起こるのかを分析します。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Interpretable Meta-Learning of Physical Systems [4.343110120255532]
最近のメタラーニング手法はブラックボックスニューラルネットワークに依存しており、計算コストが高く、解釈可能性も限られている。
我々は,学習課題に対するアフィン構造を持つ,より単純な学習モデルを用いて,マルチ環境の一般化を実現することができると論じる。
本稿では,物理系の最先端アルゴリズムと比較することにより,競合一般化性能と計算コストの低さを実証する。
論文 参考訳(メタデータ) (2023-12-01T10:18:50Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文 参考訳(メタデータ) (2023-03-14T13:28:39Z) - Comparison and Analysis of New Curriculum Criteria for End-to-End ASR [10.698093106994804]
カリキュラム学習は、知識の組織的で構造化された同化が、より速いトレーニングとより良い理解を可能にする能力を持つという観察に基づいて構築される。
我々は,自動音声認識の文脈でカリキュラム学習を採用する。
トレーニングセットに構造を付加するため、外部ニューラルネットワークからのフィードバックを利用するか、モデル自体からのフィードバックを取り入れる複数のスコアリング関数を探索した。
論文 参考訳(メタデータ) (2022-08-10T06:56:58Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - A Combinatorial Perspective on Transfer Learning [27.7848044115664]
モジュラーソリューションの学習によって、目に見えない分散データと潜在的に異なる分散データの両方を効果的に一般化することができるかを検討する。
タスクセグメンテーション,モジュール型学習,メモリベースアンサンブルの組み合わせによって,指数関数的に増加する多くの未確認タスクの一般化がもたらされる。
論文 参考訳(メタデータ) (2020-10-23T09:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。