Fugu-MT 論文翻訳(概要): Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting

論文の概要: Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting

arxiv url: http://arxiv.org/abs/2406.00053v3
Date: Sat, 01 Mar 2025 18:42:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 17:04:19.276753
Title: Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting
Title（参考訳）: デュアルプロセス学習:重み付けによるインコンテキスト対インウェイト戦略の利用制御
Authors: Suraj Anand, Michael A. Lepori, Jack Merullo, Ellie Pavlick,
Abstract要約: 言語モデルは、文脈内学習(ICL)を実行する能力を持つ言語モデルは、コンテキスト内で学習する能力があるにもかかわらず、目に見えないか、めったに見られないトークンに直面したときに苦労することが知られている。本研究では,玩具モデル,マスク言語モデル,自己回帰言語モデルを用いて,合成タスクと自然主義タスクの両方に関する構造的インコンテキストアルゴリズムについて検討する。
参考スコア（独自算出の注目度）: 15.69952375347308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models have the ability to perform in-context learning (ICL), allowing them to flexibly adapt their behavior based on context. This contrasts with in-weights learning (IWL), where memorized information is encoded in model parameters after iterated observations of data. An ideal model should be able to flexibly deploy both of these abilities. Despite their apparent ability to learn in-context, language models are known to struggle when faced with unseen or rarely seen tokens (Land & Bartolo, 2024). Hence, we study $\textbf{structural in-context learning}$, which we define as the ability of a model to execute in-context learning on arbitrary novel tokens -- so called because the model must generalize on the basis of e.g. sentence structure or task structure, rather than content encoded in token embeddings. We study structural in-context algorithms on both synthetic and naturalistic tasks using toy models, masked language models, and autoregressive language models. We find that structural ICL appears before quickly disappearing early in LM pretraining. While it has been shown that ICL can diminish during training (Singh et al., 2023), we find that prior work does not account for structural ICL. Building on Chen et al. (2024) 's active forgetting method, we introduce pretraining and finetuning methods that can modulate the preference for structural ICL and IWL. Importantly, this allows us to induce a $\textit{dual process strategy}$ where in-context and in-weights solutions coexist within a single model.
Abstract（参考訳）: 言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。これは、IWL(In-weights Learning)とは対照的であり、データの反復的な観察の後、記憶された情報をモデルパラメータに符号化する。理想的なモデルは、どちらの能力も柔軟にデプロイできるべきです。言語モデルは、文脈内で学習する能力があるにもかかわらず、目に見えないか稀に見られるトークンに直面したときに苦労することが知られている(Land & Bartolo, 2024)。したがって、$\textbf{structureural in-context learning}$について検討し、任意の新規トークン上でコンテキスト内学習を実行するモデルの能力として定義する。本研究では,玩具モデル,マスク言語モデル,自己回帰言語モデルを用いて,合成タスクと自然主義タスクの両方に関する構造的インコンテキストアルゴリズムについて検討する。構造的ICLはLM前訓練の早期に消失する。 ICLは訓練中に減少する(Singh et al , 2023)ことが示されているが、先行研究は構造的ICLを考慮しない。 Chen et al (2024) の能動的忘れ方に基づいて, 構造的 ICL と IWL の嗜好を調節できる事前学習法と微調整法を導入する。重要なことに、これは$\textit{dual process strategy}$を誘導することができます。

関連論文リスト

Controllable Context Sensitivity and the Knob Behind It [53.70327066130381]
予測を行う場合、言語モデルは、そのコンテキストとそれ以前の知識にどれだけ依存しているかをトレードオフする必要があります。我々は,この感性を制御するノブを探索し,言語モデルが文脈から応答するか,それ以前の知識から応答するかを判断する。
論文参考訳（メタデータ） (2024-11-11T22:22:21Z)
Exploring Efficient Foundational Multi-modal Models for Video Summarization [15.418001616659808]
このようなビデオ基礎モデルは、各モダリティ固有モデルからの出力を同じ埋め込み空間にアライメントすることで事前学習を行う。本稿では,各入力モダリティから生成したテキストを言語モデルに組み込んだプラグイン・アンド・プレイ型ビデオ言語モデルを提案する。プラグアンドプレイ方式とベースラインチューニング方式のパフォーマンスと計算コストを比較した。
論文参考訳（メタデータ） (2024-10-09T20:07:06Z)
From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When [19.841163050181194]
トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を示す。我々は、非構造化データで訓練されたモデルにおいて、ICLを実現するために、重要なシーケンスモデル要件とデータ構造について検討する。我々は,非構造化データにおける意味的関連語対の共起から,多くのICL機能が出現することを発見した。 In one in logic reasoning task that requires generalization to new, unseen pattern, and another in analogy completion where relevant word pairs appears in fixed training position。
論文参考訳（メタデータ） (2024-05-31T18:46:06Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
Auto-ICL: In-Context Learning without Human Supervision [93.05202223767463]
本稿では,モデルが問題解決のための例と指示を自律的に生成できる自動文脈学習フレームワークを提案する。さまざまなモデルやデータセットにわたる実験により、結果は、モデル生成コンテキストが人間の注釈付きコンテキストより優れていることを示している。
論文参考訳（メタデータ） (2023-11-15T07:37:28Z)
EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文参考訳（メタデータ） (2023-05-24T01:40:57Z)
Concept-aware Training Improves In-context Learning Ability of Language Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。テキスト内情報をよりよく活用できるLMを作成する手法を提案する。概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文参考訳（メタデータ） (2023-05-23T07:44:52Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。 KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文参考訳（メタデータ） (2022-10-28T23:18:43Z)
What Can Transformers Learn In-Context? A Case Study of Simple Function Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文参考訳（メタデータ） (2022-08-01T18:01:40Z)
DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。 10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文参考訳（メタデータ） (2022-05-21T00:58:22Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
How Far are We from Effective Context Modeling? An Exploratory Study on Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文参考訳（メタデータ） (2020-02-03T11:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。