論文の概要: Don't Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.14387v2
- Date: Fri, 05 Sep 2025 11:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.192788
- Title: Don't Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning
- Title(参考訳): LLMファインチューニングにおける無視認識の保存
- Authors: William F. Shen, Xinchi Qiu, Nicola Cancedda, Nicholas D. Lane,
- Abstract要約: 大規模言語モデル(LLM)の微調整において、破滅的な忘れを緩和する作業は、主に、これまで見られたデータのパフォーマンスの保存に重点を置いている。
我々は、無視認識の概念を定式化し、従来の微調整手法が実質的なアクティベーション変位をもたらすことを示す。
モデルが新たな知識インスタンスを効果的に取得できるだけでなく,その整合した無知の認識も維持できる,シンプルで原則化された微調整アプローチであるSEATを導入する。
- 参考スコア(独自算出の注目度): 19.777830269089588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work on mitigating catastrophic forgetting during large language models (LLMs) fine-tuning for new knowledge instances has primarily focused on preserving performance on previously seen data, while critically overlooking the collapse of essential capabilities instilled through alignment, most notably the model's ability to faithfully express epistemic uncertainty (a property we term 'Ignorance Awareness'). In this work, we formalize the notion of Ignorance Awareness and illustrate that conventional fine-tuning methods can result in substantial activation displacement. This displacement undermines the critical capability of ignorance awareness, leading to undesirable behaviors such as hallucinations. To address this challenge, we introduce SEAT, a simple and principled fine-tuning approach that not only enables the model to effectively acquire new knowledge instances but also preserves its aligned ignorance awareness. SEAT integrates two key components: (1) sparse tuning that constrains activation drift, and (2) a novel entity perturbation method designed to counter knowledge entanglement. Experimental results demonstrate that, across both real-world and synthetic datasets, SEAT significantly outperforms baselines in preserving ignorance awareness while retaining optimal fine-tuning performance, offering a more robust solution for LLM fine-tuning.
- Abstract(参考訳): 大規模言語モデル (LLMs) における破滅的な忘れを緩和する作業は、新しい知識インスタンスの微調整を中心に、これまで見てきたデータのパフォーマンスの保存に重点を置いている。
そこで本研究では, 従来の微調整手法により, アクティベーションが大幅にずれることが示唆された。
この変位は、無知の認識の重要な能力を損なうため、幻覚のような望ましくない行動を引き起こす。
この課題に対処するために、モデルが新しい知識インスタンスを効果的に取得できるだけでなく、その整合した無知の認識を維持できる、シンプルで原則化された微調整アプローチであるSEATを導入する。
SEATは,(1)アクティベーションドリフトを制約するスパースチューニング,(2)知識の絡み合いに対処するために設計された新しいエンティティ摂動法という,2つの重要なコンポーネントを統合している。
実験により、実世界のデータセットと合成データセットの両方において、SEATは、最適微調整性能を維持しながら、無知の認識を保ちながらベースラインを著しく上回り、LLM微細調整のためのより堅牢なソリューションを提供することを示した。
関連論文リスト
- UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。
本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。
有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-01-26T03:22:22Z) - Focus On This, Not That! Steering LLMs with Adaptive Feature Specification [48.27684487597968]
Focus Instruction Tuning (FIT)は、大きな言語モデルをトレーニングして、特定の機能に注目しながら、他の機能を無視して応答を条件付けする。
我々は,FITが推論時に行動のステアリングに成功したこと,(ii)コアタスク信号の増幅による堅牢性の向上,(iii)人口統計特性の抑制による社会的偏見の軽減,(iv)分布シフト下での一般化,および以前には見つからなかった焦点特徴の緩和を実証した。
論文 参考訳(メタデータ) (2024-10-30T12:01:48Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.283963879468466]
大きな言語モデル(LLM)は目覚ましい能力を示すが、幻覚による課題に直面している。
本研究では,文脈的質問応答のための新しい2段階アプローチであるuncertainty-and-Sensitivity-Aware Tuning(US-Tuning)を紹介する。
実験の結果,US-Tuningは文脈的QAにおける誤った回答を著しく低減するだけでなく,モデルのパラメトリック知識への忠実度も向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T14:56:04Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Rethinking the Effect of Data Augmentation in Adversarial Contrastive
Learning [15.259867823352012]
CIFAR-10データセット上で、DYNACLはAuto-Attackの下で最先端の自己ATロバスト性を8.84%向上できることを示す。
また,DYNACLはバニラ指導による対人訓練を初めて上回りうることを示した。
論文 参考訳(メタデータ) (2023-03-02T14:11:54Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Fine-Tuning Pre-trained Language Model with Weak Supervision: A
Contrastive-Regularized Self-Training Approach [46.76317056976196]
微調整事前訓練言語モデル(LM)は多くの自然言語処理(NLP)タスクで大きな成功を収めた。
ラベル付きデータなしで、弱い監督のみを用いて、微調整済みのLMの問題について検討する。
我々は、微調整型LMを低監督で実現するために、対照的な自己学習フレームワークであるCOSINEを開発した。
論文 参考訳(メタデータ) (2020-10-15T15:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。