論文の概要: Don't Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.14387v1
- Date: Tue, 17 Jun 2025 10:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.430618
- Title: Don't Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning
- Title(参考訳): LLMファインチューニングにおける無視認識の保存
- Authors: William F. Shen, Xinchi Qiu, Nicola Cancedda, Nicholas D. Lane,
- Abstract要約: 大規模言語モデル(LLM)の微調整における破滅的な忘れを緩和する作業は、主に特定のデータやタスクの保存に重点を置いている。
この能力は, 従来の微調整で著しく劣化し, 幻覚などの望ましくない行動に繋がることを示した。
本手法は, 微調整性能とモデル固有の無知認識能力の両方を保存し, 簡便かつ効果的な微調整手法であるSEATを提案する。
- 参考スコア(独自算出の注目度): 16.387064860524614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work on mitigating catastrophic forgetting in large language model (LLM) fine-tuning has primarily focused on preserving specific data or tasks, while critically overlooking the degradation of essential capabilities instilled through safety alignment, particularly the model's ability to faithfully express ignorance. In this work, we show that this capability is significantly degraded during conventional fine-tuning, leading to undesired behaviors such as hallucinations. To address this novel but highly practical problem, we propose SEAT, a simple and effective fine-tuning approach that preserves both fine-tuning performance and the model's inherent ability to acknowledge its ignorance. SEAT integrates two key components: (1) sparse training that constrains activation drift, and (2) a novel entity perturbation method with KL-divergence regularization, designed to counter knowledge entanglement. Experimental results demonstrate that SEAT significantly outperforms baselines in preserving ignorance awareness while retaining fine-tuning performance, offering a more robust solution for LLM fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整における破滅的な忘れを緩和する作業は、主に特定のデータやタスクの保存に重点を置いている。
本研究では,従来の微調整において,この能力は著しく劣化し,幻覚などの望ましくない行動を引き起こすことを示す。
この斬新で実用性の高い問題に対処するため、我々は、微調整性能とモデル固有の無知認識能力の両方を維持できる、シンプルで効果的な微調整アプローチであるSEATを提案する。
SEATは,(1)アクティベーションドリフトを制約するスパーストレーニング,(2)知識の絡み合いに対処するKL分割正規化を用いた新しい実体摂動法,の2つの重要な要素を統合した。
実験結果から,SEATは微調整性能を維持しながら無知の認識を保ちながらベースラインを著しく向上し,より堅牢なLCM微調整ソリューションを提供することが示された。
関連論文リスト
- UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。
本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。
有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-01-26T03:22:22Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.283963879468466]
大きな言語モデル(LLM)は目覚ましい能力を示すが、幻覚による課題に直面している。
本研究では,文脈的質問応答のための新しい2段階アプローチであるuncertainty-and-Sensitivity-Aware Tuning(US-Tuning)を紹介する。
実験の結果,US-Tuningは文脈的QAにおける誤った回答を著しく低減するだけでなく,モデルのパラメトリック知識への忠実度も向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T14:56:04Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Rethinking the Effect of Data Augmentation in Adversarial Contrastive
Learning [15.259867823352012]
CIFAR-10データセット上で、DYNACLはAuto-Attackの下で最先端の自己ATロバスト性を8.84%向上できることを示す。
また,DYNACLはバニラ指導による対人訓練を初めて上回りうることを示した。
論文 参考訳(メタデータ) (2023-03-02T14:11:54Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。