論文の概要: Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance
- arxiv url: http://arxiv.org/abs/2410.10796v1
- Date: Mon, 14 Oct 2024 17:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:12:24.141342
- Title: Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance
- Title(参考訳): コンテキストパラメトリックインバージョン:なぜインストラクションの微調整がコンテキスト信頼性を実際に改善しないのか
- Authors: Sachin Goyal, Christina Baek, J. Zico Kolter, Aditi Raghunathan,
- Abstract要約: 本研究では,この文脈依存の根底にある理由,特に指導調律後の理解を試みている。
命令チューニング中、コンテキスト依存は期待通りに増大するが、命令の微調整が進むにつれて徐々に減少する。
我々はこの現象を、入力コンテキストがモデルのパラメトリック知識にすでに存在する情報を提供する命令微調整データ混合の例に結びつける。
- 参考スコア(独自算出の注目度): 68.56701216210617
- License:
- Abstract: Large language models are instruction-finetuned to enhance their ability to follow user instructions and process the input context. However, even state-of-the-art models often struggle to follow the instruction, especially when the input context is not aligned with the model's parametric knowledge. This manifests as various failures, such as hallucinations where the responses are outdated, biased or contain unverified facts. In this work, we try to understand the underlying reason for this poor context reliance, especially after instruction tuning. We observe an intriguing phenomenon: during instruction tuning, the context reliance initially increases as expected, but then gradually decreases as instruction finetuning progresses. We call this phenomenon context-parametric inversion and observe it across multiple general purpose instruction tuning datasets like TULU, Alpaca and Ultrachat, as well as model families such as Llama, Mistral and Pythia. In a simple theoretical setup, we isolate why context-parametric inversion occurs along the gradient descent trajectory of instruction finetuning. We tie this phenomena to examples in the instruction finetuning data mixture where the input context provides information that is already present in the model's parametric knowledge. Our analysis suggests natural mitigation strategies that provide some limited gains, while also validating our theoretical insights. We hope that our work serves as a starting point in addressing this failure mode in a staple part of LLM training.
- Abstract(参考訳): 大規模言語モデルは、ユーザ命令に従う能力を高め、入力コンテキストを処理できるように、命令精細化されている。
しかし、最先端モデルでさえ、特に入力コンテキストがモデルのパラメトリック知識と一致していない場合、命令に従うのに苦労することが多い。
これは、応答が時代遅れ、偏見があり、検証されていない事実を含む幻覚など、様々な失敗として現れます。
本研究では,この文脈依存の根底にある理由,特に指導調律後の理解を試みている。
命令チューニング中、コンテキスト依存は期待通りに増大するが、命令の微調整が進むにつれて徐々に減少する。
我々は、この現象を文脈パラメトリック・インバージョンと呼び、TULU、Alpaca、Ultrachatといった汎用的なチューニングデータセットと、Llama、Mistral、Pythiaといったモデルファミリで観測する。
簡単な理論的な設定で、命令微調整の勾配降下軌道に沿って文脈パラメトリック逆転が起こる理由を分離する。
我々はこの現象を、入力コンテキストがモデルのパラメトリック知識にすでに存在する情報を提供する命令微調整データ混合の例に結びつける。
我々の分析は、限定的な利得を提供する自然な緩和戦略を示唆し、理論的な洞察を検証している。
LLMトレーニングの基本的な部分において、この障害モードに対処する上で、私たちの作業が出発点となることを願っています。
関連論文リスト
- Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。