論文の概要: Competition Dynamics Shape Algorithmic Phases of In-Context Learning
- arxiv url: http://arxiv.org/abs/2412.01003v3
- Date: Sat, 28 Dec 2024 21:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:02.603673
- Title: Competition Dynamics Shape Algorithmic Phases of In-Context Learning
- Title(参考訳): インコンテキスト学習における競合ダイナミクス形状アルゴリズムの位相
- Authors: Core Francisco Park, Ekdeep Singh Lubana, Itamar Pres, Hidenori Tanaka,
- Abstract要約: In-Context Learning (ICL) は、大規模言語モデルの汎用性を大きく拡張した。
マルコフ連鎖の有限混合をシミュレートする学習を含む合成シーケンスモデリングタスクを提案する。
ファジィ検索と推論のアプローチをユニグラムあるいはビッグラムの統計量と組み合わせた4つの広いアルゴリズムに分解することで、モデルの振る舞いを説明できることを示す。
- 参考スコア(独自算出の注目度): 10.974593590868533
- License:
- Abstract: In-Context Learning (ICL) has significantly expanded the general-purpose nature of large language models, allowing them to adapt to novel tasks using merely the inputted context. This has motivated a series of papers that analyze tractable synthetic domains and postulate precise mechanisms that may underlie ICL. However, the use of relatively distinct setups that often lack a sequence modeling nature to them makes it unclear how general the reported insights from such studies are. Motivated by this, we propose a synthetic sequence modeling task that involves learning to simulate a finite mixture of Markov chains. As we show, models trained on this task reproduce most well-known results on ICL, hence offering a unified setting for studying the concept. Building on this setup, we demonstrate we can explain a model's behavior by decomposing it into four broad algorithms that combine a fuzzy retrieval vs. inference approach with either unigram or bigram statistics of the context. These algorithms engage in a competition dynamics to dominate model behavior, with the precise experimental conditions dictating which algorithm ends up superseding others: e.g., we find merely varying context size or amount of training yields (at times sharp) transitions between which algorithm dictates the model behavior, revealing a mechanism that explains the transient nature of ICL. In this sense, we argue ICL is best thought of as a mixture of different algorithms, each with its own peculiarities, instead of a monolithic capability. This also implies that making general claims about ICL that hold universally across all settings may be infeasible.
- Abstract(参考訳): In-Context Learning (ICL) は、大きな言語モデルの汎用性を大きく拡張し、入力された文脈だけで新しいタスクに適応できるようにした。
これは、抽出可能な合成ドメインを分析し、ICLの基盤となる正確なメカニズムを仮定する一連の論文を動機付けている。
しかし、シーケンスモデリングの性質を欠く比較的異なるセットアップを使用することで、これらの研究から報告された知見がどの程度一般的であるかは明らかでない。
そこで本研究では,マルコフ鎖の有限混合をシミュレートする学習を伴う合成シーケンスモデリングタスクを提案する。
以下に示すように、このタスクで訓練されたモデルは、ICL上で最もよく知られた結果を再現し、その概念を研究するための統一的な設定を提供する。
この設定に基づいて、ファジィ検索と推論のアプローチを、文脈のユニグラムあるいはビッグラム統計と組み合わせた4つの広いアルゴリズムに分解することで、モデルの振る舞いを説明できることを示す。
これらのアルゴリズムは、どのアルゴリズムが他のアルゴリズムに取って代わられるかを決定する正確な実験条件とともに、モデルの振る舞いを支配するための競争力学に関与している: 例えば、我々は単に異なる文脈サイズまたはトレーニングの収量(時には鋭い)遷移を見つけ、そのアルゴリズムがモデルの振る舞いを規定し、ICLの過渡的な性質を説明するメカニズムを明らかにする。
この意味では、ICLはモノリシックな機能ではなく、それぞれ独自の特徴を持つ異なるアルゴリズムの混合である、と私たちは考えています。
これはまた、すべての設定で普遍的に保持されるICLに関する一般的な主張が実現不可能であることを意味している。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文 参考訳(メタデータ) (2023-12-03T15:34:46Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Streaming Inference for Infinite Non-Stationary Clustering [9.84413545378636]
非定常データの連続的なストリームから教師なしの方法で学習することは、知的なエージェントが直面する最も一般的で最も困難な設定の1つであることは間違いない。
ここでは、クラスタリング(混合モデリング)の文脈における3つの条件(教師なし、ストリーミング、非定常)の学習を攻撃する。
我々は、混合モデルに新しいクラスタをオンラインで作成できる新しいクラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-05-02T21:05:18Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - The Role of Isomorphism Classes in Multi-Relational Datasets [6.419762264544509]
アイソモーフィックリークは,マルチリレーショナル推論の性能を過大評価することを示す。
モデル評価のためのアイソモーフィック・アウェア・シンセサイティング・ベンチマークを提案する。
また、同型類は単純な優先順位付けスキームによって利用することができることを示した。
論文 参考訳(メタデータ) (2020-09-30T12:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。