論文の概要: On the generalization of language models from in-context learning and finetuning: a controlled study
- arxiv url: http://arxiv.org/abs/2505.00661v1
- Date: Thu, 01 May 2025 17:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.378033
- Title: On the generalization of language models from in-context learning and finetuning: a controlled study
- Title(参考訳): 文脈内学習と微調整による言語モデルの一般化について--制御された研究
- Authors: Andrew K. Lampinen, Arslan Chaudhry, Stephanie C. Y. Chan, Cody Wild, Diane Wan, Alex Ku, Jörg Bornschein, Razvan Pascanu, Murray Shanahan, James L. McClelland,
- Abstract要約: 言語モデルの文脈内学習は、異なる帰納バイアスを示し、場合によってはより一般化できることを示す。
本研究では,微調整データに文脈内推論を追加することによって,微調整による一般化を改善する手法を提案する。
この結果は,言語モデルにおける学習様式の違いによる帰納バイアスの理解に影響を及ぼす。
- 参考スコア(独自算出の注目度): 36.384796130439035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit exciting capabilities, yet can show surprisingly narrow generalization from finetuning -- from failing to generalize to simple reversals of relations they are trained on, to missing logical deductions that can be made from trained information. These failures to generalize from fine-tuning can hinder practical application of these models. However, language models' in-context learning shows different inductive biases, and can generalize better in some of these cases. Here, we explore these differences in generalization between in-context- and fine-tuning-based learning. To do so, we constructed several novel datasets to evaluate and improve models' ability to generalize from finetuning data. The datasets are constructed to isolate the knowledge in the dataset from that in pretraining, to create clean tests of generalization. We expose pretrained large models to controlled subsets of the information in these datasets -- either in context, or through fine-tuning -- and evaluate their performance on test sets that require various types of generalization. We find overall that in data-matched settings, in-context learning can generalize more flexibly than fine-tuning (though we also find some qualifications of prior findings, such as cases when fine-tuning can generalize to reversals embedded in a larger structure of knowledge). We build on these findings to propose a method to enable improved generalization from fine-tuning: adding in-context inferences to finetuning data. We show that this method improves generalization across various splits of our datasets and other benchmarks. Our results have implications for understanding the inductive biases of different modes of learning in language models, and practically improving their performance.
- Abstract(参考訳): 大規模な言語モデルは、エキサイティングな能力を示すが、微調整から、訓練されている関係の単純な逆転への一般化の失敗、訓練された情報から得られる論理的推論の欠如まで、驚くほど狭い一般化を示すことができる。
これらの微調整による一般化の失敗は、これらのモデルの実用的な応用を妨げる。
しかし、言語モデルの文脈内学習は、異なる帰納バイアスを示し、これらのケースではより一般化することができる。
本稿では,テキスト内学習と微調整学習の一般化におけるこれらの違いについて考察する。
そこで我々は,微調整データからモデルを一般化する能力を評価・改善するために,いくつかの新しいデータセットを構築した。
データセットは、データセットの知識と事前トレーニングの知識を分離するために構築され、一般化のクリーンなテストを作成する。
プレトレーニング済みの大規模モデルを、コンテキストか微調整によって、これらのデータセットの情報の制御されたサブセットに公開し、様々な種類の一般化を必要とするテストセットでそれらのパフォーマンスを評価する。
全体として、データマッチング設定では、文脈内学習は微調整よりも柔軟に一般化できる(ただし、微調整がより大きな知識構造に埋め込まれた逆転に一般化できる場合など、事前発見の資格もいくつかある)。
これらの結果に基づいて、細調整データにコンテキスト内推論を追加することによって、微調整による一般化を改善する手法を提案する。
本研究では,本手法により,データセットおよび他のベンチマークの様々な分割における一般化が向上することを示す。
本研究の結果は,言語モデルにおける学習様式の帰納的バイアスの理解と,その性能向上に寄与すると考えられる。
関連論文リスト
- Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - UniArk: Improving Generalisation and Consistency for Factual Knowledge Extraction through Debiasing [19.2764682793582]
本研究は,言語モデルにおける事前学習目標と下流学習目標との相違点を示す。
汎用的で一貫した事実知識抽出のためのアダプタベースのフレームワークUniArkを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:22:07Z) - Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。
しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。
データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文 参考訳(メタデータ) (2024-03-18T14:45:52Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and
Evaluation [35.72916406365469]
数ショットの微調整とコンテキスト内学習の一般化と,データセットへの挑戦を比較した。
この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T13:55:17Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Cross-Domain Generalization and Knowledge Transfer in Transformers
Trained on Legal Data [0.0]
異なる型システムで注釈付けされたデータセット間で知識を伝達する事前学習言語モデルの解析を行う。
文がケース決定で果たす修辞的役割の予測は、AI & Lawにおいて重要かつしばしば研究される課題である。
論文 参考訳(メタデータ) (2021-12-15T04:23:14Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。