論文の概要: Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning
- arxiv url: http://arxiv.org/abs/2505.11004v1
- Date: Fri, 16 May 2025 08:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.375926
- Title: Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning
- Title(参考訳): 錯覚・アルゴリズム : 文脈学習における記憶・創発・記号処理の検討
- Authors: Jingcheng Niu, Subhabrata Dutta, Ahmed Elshabrawy, Harish Tayyar Madabushi, Iryna Gurevych,
- Abstract要約: 大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
- 参考スコア(独自算出の注目度): 48.67380502157004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Transformer language models (LMs) trained solely on next-token prediction with web-scale data can solve a wide range of tasks after seeing just a few examples. The mechanism behind this capability, known as in-context learning (ICL), remains both controversial and poorly understood. Some studies argue that it is merely the result of memorizing vast amounts of data, while others contend that it reflects a fundamental, symbolic algorithmic development in LMs. In this work, we introduce a suite of investigative tasks and a novel method to systematically investigate ICL by leveraging the full Pythia scaling suite, including interim checkpoints that capture progressively larger amount of training data. By carefully exploring ICL performance on downstream tasks and simultaneously conducting a mechanistic analysis of the residual stream's subspace, we demonstrate that ICL extends beyond mere "memorization" of the training corpus, yet does not amount to the implementation of an independent symbolic algorithm. Our results also clarify several aspects of ICL, including the influence of training dynamics, model capabilities, and elements of mechanistic interpretability. Overall, our work advances the understanding of ICL and its implications, offering model developers insights into potential improvements and providing AI security practitioners with a basis for more informed guidelines.
- Abstract(参考訳): 大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、ほんの数例を見れば、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
膨大な量のデータを記憶した結果に過ぎないとする研究もある一方で、LMの基本的な象徴的なアルゴリズム開発を反映しているとする研究もある。
そこで本研究では,Pythiaスケーリングスイートをフル活用してICLを体系的に調査する新しい手法を提案する。
下流タスクにおけるICLの性能を精査し、残留ストリームのサブスペースの力学解析を同時に行うことにより、ICLはトレーニングコーパスの単なる「記憶」を超えて拡張されるが、独立したシンボルアルゴリズムの実装には及ばないことを示す。
また, 学習力学, モデル能力, 機械的解釈可能性の要素など, ICLのいくつかの側面も明らかにした。
全体として、当社の作業はICLとその意味を理解し、潜在的な改善に関するモデル開発者の洞察を提供し、AIセキュリティ実践者により詳細なガイドラインの基礎を提供する。
関連論文リスト
- What Matters for In-Context Learning: A Balancing Act of Look-up and In-Weight Learning [42.8453045943264]
ICLには,データシーケンスにおける概念的反復が不可欠であることを示す。
また、ICLの出現は、重み付き学習目標とコンテキスト内問題解決能力のバランスに依存することを示した。
論文 参考訳(メタデータ) (2025-01-09T09:45:05Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。
I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。