論文の概要: Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance
- arxiv url: http://arxiv.org/abs/2410.10796v2
- Date: Tue, 22 Oct 2024 17:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:59.039687
- Title: Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance
- Title(参考訳): コンテキストパラメトリックインバージョン:なぜインストラクションの微調整がコンテキスト信頼性を実際に改善しないのか
- Authors: Sachin Goyal, Christina Baek, J. Zico Kolter, Aditi Raghunathan,
- Abstract要約: In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
- 参考スコア(独自算出の注目度): 68.56701216210617
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A standard practice when using large language models is for users to supplement their instruction with an input context containing new information for the model to process. However, models struggle to reliably follow the input context, especially when it conflicts with their parametric knowledge from pretraining. In-principle, one would expect models to adapt to the user context better after instruction finetuning, particularly when handling knowledge conflicts. However, we observe a surprising failure mode: during instruction tuning, the context reliance under knowledge conflicts initially increases as expected, but then gradually decreases as instruction finetuning progresses. This happens while the performance on standard benchmarks keeps on increasing far after this drop. We call this phenomenon context-parametric inversion and observe it across multiple general purpose instruction tuning datasets such as TULU, Alpaca and Ultrachat, across different model families like Llama, Mistral, and Pythia. We perform various controlled studies and theoretical analysis to show that context-parametric inversion occurs due to examples in the instruction finetuning data where the input context provides information that aligns with model's parametric knowledge. Our analysis suggests some natural mitigation strategies with limited but insightful gains, and serves as a useful starting point in addressing this deficiency in instruction finetuning.
- Abstract(参考訳): 大規模言語モデルを使用する場合の標準的なプラクティスは、ユーザがモデルを処理すべき新しい情報を含む入力コンテキストで命令を補うことである。
しかし、特に事前学習からパラメトリック知識と矛盾する場合、モデルは入力コンテキストに確実に従うのに苦労する。
インプリンシプルでは、特に知識の衝突を扱う場合、モデルが命令の微調整後にユーザーコンテキストに適応することを期待する。
しかし, 命令チューニング中は, 知識間のコンテクスト依存は期待通りに増大するが, 命令の微調整が進むにつれて徐々に減少する。
これは、標準ベンチマークのパフォーマンスが、この低下後もずっと上昇している間に起こります。
我々は、この現象を文脈パラメトリックインバージョンと呼び、TULU、Alpaca、Ultrachatといった汎用的なチューニングデータセットを、Llama、Mistral、Pythiaといった異なるモデルファミリにわたって観察する。
入力コンテキストがモデルのパラメトリック知識と整合した情報を提供する命令微調整データの例によって、文脈パラメトリックの逆転が生じることを示すために、様々な制御された研究と理論的解析を行う。
分析の結果,制限はあるものの洞察に富んだ利得を持つ自然緩和戦略が示唆され,この欠陥に対処する上で有用な出発点となっている。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Studying Large Language Model Behaviors Under Context-Memory Conflicts With Real Documents [54.953320616069654]
Retrieval-augmented Generationは、完全なパラメトリック言語モデルの多くの問題を緩和する。
RAGでは、コンテキストで提供される文書からモデルの知識を更新することができる。
本稿では,そのような知識紛争を現実的に研究するための枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-24T17:59:36Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。