論文の概要: Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting
- arxiv url: http://arxiv.org/abs/2406.00053v2
- Date: Mon, 1 Jul 2024 18:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:59:27.450054
- Title: Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting
- Title(参考訳): デュアルプロセス学習:重み付けによるインコンテキスト対インウェイト戦略の利用制御
- Authors: Suraj Anand, Michael A. Lepori, Jack Merullo, Ellie Pavlick,
- Abstract要約: 言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。
実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。
モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。
- 参考スコア(独自算出の注目度): 15.69952375347308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have the ability to perform in-context learning (ICL), allowing them to flexibly adapt their behavior based on context. This contrasts with in-weights learning, where information is statically encoded in model parameters from iterated observations of the data. Despite this apparent ability to learn in-context, language models are known to struggle when faced with unseen or rarely seen tokens. Hence, we study $\textbf{structural in-context learning}$, which we define as the ability of a model to execute in-context learning on arbitrary tokens -- so called because the model must generalize on the basis of e.g. sentence structure or task structure, rather than semantic content encoded in token embeddings. An ideal model would be able to do both: flexibly deploy in-weights operations (in order to robustly accommodate ambiguous or unknown contexts using encoded semantic information) and structural in-context operations (in order to accommodate novel tokens). We study structural in-context algorithms in a simple part-of-speech setting using both practical and toy models. We find that active forgetting, a technique that was recently introduced to help models generalize to new languages, forces models to adopt structural in-context learning solutions. Finally, we introduce $\textbf{temporary forgetting}$, a straightforward extension of active forgetting that enables one to control how much a model relies on in-weights vs. in-context solutions. Importantly, temporary forgetting allows us to induce a $\textit{dual process strategy}$ where in-context and in-weights solutions coexist within a single model.
- Abstract(参考訳): 言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。
これは、データの反復的な観察から、情報がモデルパラメータに静的に符号化される、重み付き学習とは対照的である。
このようなコンテキスト内で学習する能力にもかかわらず、言語モデルは目に見えないか、まれに現れるトークンに直面したときに苦労することが知られている。
したがって、$\textbf{structureural in-context learning}$を、任意のトークン上でコンテキスト内学習を実行するモデルの能力として定義する。
理想的なモデルは、柔軟に in-weights 操作をデプロイ(エンコードされたセマンティック情報を使ってあいまいさや未知のコンテキストを堅牢に適合させるために)し、構造的 in-context 操作(新しいトークンに対応するために)を行うことができる。
実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。
モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。
最後に、$\textbf{temporary forgetting}$を紹介します。これは、モデルがインウェイトとインコンテキストソリューションにどれだけ依存するかを制御できる、アクティブな忘れの直接的な拡張です。
重要なことは、一時的忘れることによって、$\textit{dual process strategy}$を誘導することができます。
関連論文リスト
- Controllable Context Sensitivity and the Knob Behind It [53.70327066130381]
予測を行う場合、言語モデルは、そのコンテキストとそれ以前の知識にどれだけ依存しているかをトレードオフする必要があります。
我々は,この感性を制御するノブを探索し,言語モデルが文脈から応答するか,それ以前の知識から応答するかを判断する。
論文 参考訳(メタデータ) (2024-11-11T22:22:21Z) - Exploring Efficient Foundational Multi-modal Models for Video Summarization [15.418001616659808]
このようなビデオ基礎モデルは、各モダリティ固有モデルからの出力を同じ埋め込み空間にアライメントすることで事前学習を行う。
本稿では,各入力モダリティから生成したテキストを言語モデルに組み込んだプラグイン・アンド・プレイ型ビデオ言語モデルを提案する。
プラグアンドプレイ方式とベースラインチューニング方式のパフォーマンスと計算コストを比較した。
論文 参考訳(メタデータ) (2024-10-09T20:07:06Z) - Auto-ICL: In-Context Learning without Human Supervision [93.05202223767463]
本稿では,モデルが問題解決のための例と指示を自律的に生成できる自動文脈学習フレームワークを提案する。
さまざまなモデルやデータセットにわたる実験により、結果は、モデル生成コンテキストが人間の注釈付きコンテキストより優れていることを示している。
論文 参考訳(メタデータ) (2023-11-15T07:37:28Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。