論文の概要: Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning
- arxiv url: http://arxiv.org/abs/2406.14022v1
- Date: Thu, 20 Jun 2024 06:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:10:05.753262
- Title: Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning
- Title(参考訳): インテクスト学習の事前学習ダイナミクスの検討--タスク認識とタスク学習-
- Authors: Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 99.05401042153214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of in-context learning (ICL) is potentially attributed to two major abilities: task recognition (TR) for recognizing the task from demonstrations and utilizing pre-trained priors, and task learning (TL) for learning from demonstrations. However, relationships between the two abilities and how such relationships affect the emergence of ICL is unclear. In this paper, we take the first step by examining the pre-training dynamics of the emergence of ICL. With carefully designed metrics, we find that these two abilities are, in fact, competitive during pre-training. Moreover, we observe a strong negative correlation between the competition and ICL performance. Further analysis of common pre-training factors (i.e., model size, dataset size, and data curriculum) demonstrates possible ways to manage the competition. Based on these insights, we propose a simple yet effective method to better integrate these two abilities for ICL at inference time. Through adaptive ensemble learning, the performance of ICL can be significantly boosted, enabling two small models to outperform a larger one with more than twice the parameters. The code is available at https://github.com/RUCAIBox/Competitive-ICL.
- Abstract(参考訳): インコンテキスト学習(ICL)の出現は、実演からタスクを認識するタスク認識(TR)と、実演から学ぶタスク学習(TL)の2つの主要な能力に起因している可能性がある。
しかし,両者の関係がICLの出現にどのように影響するかは明らかでない。
本稿では,ICLの出現の事前学習のダイナミクスを調べることで,第一歩を踏み出す。
慎重に設計されたメトリクスによって、これらの2つの能力は、実際、事前トレーニング中に競争力があることが分かります。
さらに、競合とICL性能との間には強い負の相関関係が観察された。
一般的な事前学習因子(モデルサイズ、データセットサイズ、データカリキュラム)のさらなる分析は、競合を管理するための可能な方法を示している。
これらの知見に基づき、推論時にICLにこれらの2つの能力をよりよく統合するための、シンプルで効果的な方法を提案する。
適応的なアンサンブル学習により、ICLの性能は大幅に向上し、2つの小さなモデルが2倍以上のパラメータを持つ大きなモデルよりも優れる。
コードはhttps://github.com/RUCAIBox/Competitive-ICLで入手できる。
関連論文リスト
- ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - In-context Contrastive Learning for Event Causality Identification [26.132189768472067]
事象因果同定は、2つの事象間の因果関係の存在を決定することを目的としている。
最近の素早い学習ベースのアプローチは、ECIタスクに有望な改善を示している。
本稿では,コントラスト学習を利用したインコンテキストコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2024-05-17T03:32:15Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Let's Learn Step by Step: Enhancing In-Context Learning Ability with Curriculum Learning [9.660673938961416]
実証オーダリングは、文脈内学習(ICL)にとって重要な戦略である
In-Context Curriculum Learning (ICCL) と呼ばれるICLの簡易かつ効果的な実演順序付け手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T14:55:33Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU [19.42920238320109]
カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。
本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。
実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
論文 参考訳(メタデータ) (2022-10-22T17:10:04Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。