Fugu-MT 論文翻訳(概要): Breaking through the learning plateaus of in-context learning in Transformer

論文の概要: Breaking through the learning plateaus of in-context learning in Transformer

arxiv url: http://arxiv.org/abs/2309.06054v2
Date: Mon, 29 Jan 2024 07:04:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:09:58.835910
Title: Breaking through the learning plateaus of in-context learning in Transformer
Title（参考訳）: Transformerにおける文脈内学習の学習台地を突破する
Authors: Jingwen Fu, Tao Yang, Yuwang Wang, Yan Lu, Nanning Zheng
Abstract要約: 文脈学習(In-context learning)、すなわち文脈の例から学ぶことは、Transformerの印象的な能力である。この文脈内学習スキルを持つための学習用トランスフォーマーは、学習台地の発生により、計算集約的である。
参考スコア（独自算出の注目度）: 46.73131236261085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context learning, i.e., learning from context examples, is an impressive ability of Transformer. Training Transformers to possess this in-context learning skill is computationally intensive due to the occurrence of learning plateaus, which are periods within the training process where there is minimal or no enhancement in the model's in-context learning capability. To study the mechanism behind the learning plateaus, we conceptually seperate a component within the model's internal representation that is exclusively affected by the model's weights. We call this the "weights component", and the remainder is identified as the "context component". By conducting meticulous and controlled experiments on synthetic tasks, we note that the persistence of learning plateaus correlates with compromised functionality of the weights component. Recognizing the impaired performance of the weights component as a fundamental behavior drives learning plateaus, we have developed three strategies to expedite the learning of Transformers. The effectiveness of these strategies is further confirmed in natural language processing tasks. In conclusion, our research demonstrates the feasibility of cultivating a powerful in-context learning ability within AI systems in an eco-friendly manner.
Abstract（参考訳）: 文脈学習、すなわち文脈の例から学ぶことは、Transformerの素晴らしい能力である。このインコンテキスト学習技術を身につけるための訓練用トランスフォーマーは、モデルのインコンテキスト学習能力が最小あるいは全く向上しないトレーニングプロセスの期間である学習台地の発生により、計算集約的である。学習台地の背後にあるメカニズムを研究するため、モデルの内部表現の要素を概念的に分離し、モデルの重みにのみ影響する。これを"weights component"と呼び、残りは"context component"として識別します。合成タスクの精密かつ制御された実験を行うことにより,学習台地の持続性は重み成分の損なわれた機能と相関することがわかった。基本動作として重み成分の性能を損なうことを認識し,トランスフォーマーの学習を迅速化する3つの戦略を開発した。これらの戦略の有効性は自然言語処理タスクにおいてさらに確認される。本研究は,aiシステムにおける強力な文脈内学習能力を,環境にやさしい方法で育成できることを実証する。

関連論文リスト

From Memories to Maps: Mechanisms of In-Context Reinforcement Learning in Transformers [2.4554686192257424]
本研究は,げっ歯類行動にインスパイアされた計画課題の分布について,コンテクスト内強化学習のためのトランスフォーマーを訓練する。モデルに現れる学習アルゴリズムを特徴付ける。メモリは計算資源として機能し、フレキシブルな動作をサポートするために生のエクスペリエンスとキャッシュされた計算の両方を格納する。
論文参考訳（メタデータ） (2025-06-24T14:55:43Z)
The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文参考訳（メタデータ） (2024-12-16T05:33:05Z)
Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文参考訳（メタデータ） (2024-10-30T14:09:00Z)
A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文参考訳（メタデータ） (2024-10-25T15:39:34Z)
Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文参考訳（メタデータ） (2024-09-05T17:58:28Z)
How Truncating Weights Improves Reasoning in Language Models [49.80959223722325]
特定のグローバルな関連が、特定の重み成分やトランスフォーマーブロックにどのように格納されるかを検討する。実験的にも理論的にも、トレーニング中にどのように起こるのかを分析します。
論文参考訳（メタデータ） (2024-06-05T08:51:08Z)
Interpretable Meta-Learning of Physical Systems [4.343110120255532]
最近のメタラーニング手法はブラックボックスニューラルネットワークに依存しており、計算コストが高く、解釈可能性も限られている。我々は,学習課題に対するアフィン構造を持つ,より単純な学習モデルを用いて,マルチ環境の一般化を実現することができると論じる。本稿では,物理系の最先端アルゴリズムと比較することにより,競合一般化性能と計算コストの低さを実証する。
論文参考訳（メタデータ） (2023-12-01T10:18:50Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文参考訳（メタデータ） (2023-03-14T13:28:39Z)
Comparison and Analysis of New Curriculum Criteria for End-to-End ASR [10.698093106994804]
カリキュラム学習は、知識の組織的で構造化された同化が、より速いトレーニングとより良い理解を可能にする能力を持つという観察に基づいて構築される。我々は,自動音声認識の文脈でカリキュラム学習を採用する。トレーニングセットに構造を付加するため、外部ニューラルネットワークからのフィードバックを利用するか、モデル自体からのフィードバックを取り入れる複数のスコアリング関数を探索した。
論文参考訳（メタデータ） (2022-08-10T06:56:58Z)
What Can Transformers Learn In-Context? A Case Study of Simple Function Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文参考訳（メタデータ） (2022-08-01T18:01:40Z)
Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文参考訳（メタデータ） (2021-04-29T12:18:02Z)
A Combinatorial Perspective on Transfer Learning [27.7848044115664]
モジュラーソリューションの学習によって、目に見えない分散データと潜在的に異なる分散データの両方を効果的に一般化することができるかを検討する。タスクセグメンテーション,モジュール型学習,メモリベースアンサンブルの組み合わせによって,指数関数的に増加する多くの未確認タスクの一般化がもたらされる。
論文参考訳（メタデータ） (2020-10-23T09:53:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。