論文の概要: Strategy Coopetition Explains the Emergence and Transience of In-Context Learning
- arxiv url: http://arxiv.org/abs/2503.05631v2
- Date: Mon, 10 Mar 2025 07:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 11:38:37.741810
- Title: Strategy Coopetition Explains the Emergence and Transience of In-Context Learning
- Title(参考訳): ストラテジーコペティションは、文脈内学習の創発とトランスジェンスを説明する
- Authors: Aaditya K. Singh, Ted Moskovitz, Sara Dragutinovic, Felix Hill, Stephanie C. Y. Chan, Andrew M. Saxe,
- Abstract要約: インコンテキスト学習(ICL)は、トランスフォーマーモデルに現れる強力な能力であり、重み更新なしでコンテキストから学習することができる。
最近の研究は、長時間のトレーニング後に消失することがある過渡現象として緊急ICLを確立している。
本稿では、これらの重要な力学と相互作用を再現する最小限の数学的モデルを提案する。
- 参考スコア(独自算出の注目度): 24.63934469340368
- License:
- Abstract: In-context learning (ICL) is a powerful ability that emerges in transformer models, enabling them to learn from context without weight updates. Recent work has established emergent ICL as a transient phenomenon that can sometimes disappear after long training times. In this work, we sought a mechanistic understanding of these transient dynamics. Firstly, we find that, after the disappearance of ICL, the asymptotic strategy is a remarkable hybrid between in-weights and in-context learning, which we term "context-constrained in-weights learning" (CIWL). CIWL is in competition with ICL, and eventually replaces it as the dominant strategy of the model (thus leading to ICL transience). However, we also find that the two competing strategies actually share sub-circuits, which gives rise to cooperative dynamics as well. For example, in our setup, ICL is unable to emerge quickly on its own, and can only be enabled through the simultaneous slow development of asymptotic CIWL. CIWL thus both cooperates and competes with ICL, a phenomenon we term "strategy coopetition." We propose a minimal mathematical model that reproduces these key dynamics and interactions. Informed by this model, we were able to identify a setup where ICL is truly emergent and persistent.
- Abstract(参考訳): インコンテキスト学習(ICL)は、トランスフォーマーモデルに現れる強力な能力であり、重み更新なしでコンテキストから学習することができる。
最近の研究は、長時間のトレーニング後に消失することがある過渡現象として緊急ICLを確立している。
本研究では,これらの過渡的力学の力学的理解を求めた。
第一に、ICLの消滅後、漸近的戦略は、"context-constrained in-weights learning"(CIWL)と呼ばれる、in-weightsとin-context learningの顕著なハイブリッドであることがわかった。
CIWLはICLと競合しており、最終的にモデルを支配的な戦略(ICLのトランジェンスにつながるもの)として置き換える。
しかし、競合する2つの戦略は実際にはサブ回路を共有しており、協調的ダイナミクスももたらされる。
例えば、我々の設定では、ICLは単独ではすぐには現れず、漸近性CIWLの同時進行によってのみ有効である。
したがって、CIWLはICLと協力し、競合する。
本稿では、これらの重要な力学と相互作用を再現する最小限の数学的モデルを提案する。
このモデルにインフォームされた私たちは、ICLが真に創発的で永続的なセットアップを特定することができました。
関連論文リスト
- ECM: A Unified Electronic Circuit Model for Explaining the Emergence of In-Context Learning and Chain-of-Thought in Large Language Model [64.22300168242221]
In-Context Learning (ICL) と Chain-of-Thought (CoT) は、大規模言語モデルにおいて出現する能力である。
ICLとCoTをよりよく理解するための電子回路モデル(ECM)を提案する。
ECMは, 様々なプロンプト戦略において, LLMの性能を効果的に予測し, 説明する。
論文 参考訳(メタデータ) (2025-02-05T16:22:33Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - The Transient Nature of Emergent In-Context Learning in Transformers [28.256651019346023]
トランスフォーマーネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
トランスフォーマートレーニング中のICLの出現は、しばしば過渡的であることを示す。
ICLが最初に出現し、その後消滅し、トレーニング損失が減少している間にIWLに道を譲る。
論文 参考訳(メタデータ) (2023-11-14T18:03:20Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。