論文の概要: Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting
- arxiv url: http://arxiv.org/abs/2406.00053v3
- Date: Sat, 01 Mar 2025 18:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:12:03.805081
- Title: Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting
- Title(参考訳): デュアルプロセス学習:重み付けによるインコンテキスト対インウェイト戦略の利用制御
- Authors: Suraj Anand, Michael A. Lepori, Jack Merullo, Ellie Pavlick,
- Abstract要約: 言語モデルは、文脈内学習(ICL)を実行する能力を持つ
言語モデルは、コンテキスト内で学習する能力があるにもかかわらず、目に見えないか、めったに見られないトークンに直面したときに苦労することが知られている。
本研究では,玩具モデル,マスク言語モデル,自己回帰言語モデルを用いて,合成タスクと自然主義タスクの両方に関する構造的インコンテキストアルゴリズムについて検討する。
- 参考スコア(独自算出の注目度): 15.69952375347308
- License:
- Abstract: Language models have the ability to perform in-context learning (ICL), allowing them to flexibly adapt their behavior based on context. This contrasts with in-weights learning (IWL), where memorized information is encoded in model parameters after iterated observations of data. An ideal model should be able to flexibly deploy both of these abilities. Despite their apparent ability to learn in-context, language models are known to struggle when faced with unseen or rarely seen tokens (Land & Bartolo, 2024). Hence, we study $\textbf{structural in-context learning}$, which we define as the ability of a model to execute in-context learning on arbitrary novel tokens -- so called because the model must generalize on the basis of e.g. sentence structure or task structure, rather than content encoded in token embeddings. We study structural in-context algorithms on both synthetic and naturalistic tasks using toy models, masked language models, and autoregressive language models. We find that structural ICL appears before quickly disappearing early in LM pretraining. While it has been shown that ICL can diminish during training (Singh et al., 2023), we find that prior work does not account for structural ICL. Building on Chen et al. (2024) 's active forgetting method, we introduce pretraining and finetuning methods that can modulate the preference for structural ICL and IWL. Importantly, this allows us to induce a $\textit{dual process strategy}$ where in-context and in-weights solutions coexist within a single model.
- Abstract(参考訳): 言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。
これは、IWL(In-weights Learning)とは対照的であり、データの反復的な観察の後、記憶された情報をモデルパラメータに符号化する。
理想的なモデルは、どちらの能力も柔軟にデプロイできるべきです。
言語モデルは、文脈内で学習する能力があるにもかかわらず、目に見えないか稀に見られるトークンに直面したときに苦労することが知られている(Land & Bartolo, 2024)。
したがって、$\textbf{structureural in-context learning}$について検討し、任意の新規トークン上でコンテキスト内学習を実行するモデルの能力として定義する。
本研究では,玩具モデル,マスク言語モデル,自己回帰言語モデルを用いて,合成タスクと自然主義タスクの両方に関する構造的インコンテキストアルゴリズムについて検討する。
構造的ICLはLM前訓練の早期に消失する。
ICLは訓練中に減少する(Singh et al , 2023)ことが示されているが、先行研究は構造的ICLを考慮しない。
Chen et al (2024) の能動的忘れ方に基づいて, 構造的 ICL と IWL の嗜好を調節できる事前学習法と微調整法を導入する。
重要なことに、これは$\textit{dual process strategy}$を誘導することができます。
関連論文リスト
- Controllable Context Sensitivity and the Knob Behind It [53.70327066130381]
予測を行う場合、言語モデルは、そのコンテキストとそれ以前の知識にどれだけ依存しているかをトレードオフする必要があります。
我々は,この感性を制御するノブを探索し,言語モデルが文脈から応答するか,それ以前の知識から応答するかを判断する。
論文 参考訳(メタデータ) (2024-11-11T22:22:21Z) - Exploring Efficient Foundational Multi-modal Models for Video Summarization [15.418001616659808]
このようなビデオ基礎モデルは、各モダリティ固有モデルからの出力を同じ埋め込み空間にアライメントすることで事前学習を行う。
本稿では,各入力モダリティから生成したテキストを言語モデルに組み込んだプラグイン・アンド・プレイ型ビデオ言語モデルを提案する。
プラグアンドプレイ方式とベースラインチューニング方式のパフォーマンスと計算コストを比較した。
論文 参考訳(メタデータ) (2024-10-09T20:07:06Z) - Auto-ICL: In-Context Learning without Human Supervision [93.05202223767463]
本稿では,モデルが問題解決のための例と指示を自律的に生成できる自動文脈学習フレームワークを提案する。
さまざまなモデルやデータセットにわたる実験により、結果は、モデル生成コンテキストが人間の注釈付きコンテキストより優れていることを示している。
論文 参考訳(メタデータ) (2023-11-15T07:37:28Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。