論文の概要: Fine-Tuned LLMs Know They Don't Know: A Parameter-Efficient Approach to Recovering Honesty
- arxiv url: http://arxiv.org/abs/2511.12991v1
- Date: Mon, 17 Nov 2025 05:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.681792
- Title: Fine-Tuned LLMs Know They Don't Know: A Parameter-Efficient Approach to Recovering Honesty
- Title(参考訳): ファインチューニングされたLLMは、自分が知らないことを知っている: 正直を回復するためのパラメータ効率の良いアプローチ
- Authors: Zeyu Shi, Ziming Wang, Tianyu Chen, Shiqi Gao, Haoyi Zhou, Qingyun Sun, Jianxin Li,
- Abstract要約: 大規模言語モデル(LLM)は、高い領域での安全なデプロイメントにおいてますます重要になっている。
既存のリカバリ手法はデータ集約的なグローバルパラメータ調整に依存しており、SFTがモデルの知識境界を認識する能力を深く損なうことを暗黙的に仮定している。
我々は,この抑制された能力を外科的に修復するために,Honesty-Critical Neurons Restoration (HCNR)を提案する。
- 参考スコア(独自算出の注目度): 48.593888815135934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The honesty of Large Language Models (LLMs) is increasingly important for safe deployment in high-stakes domains. However, this crucial trait is severely undermined by supervised fine-tuning (SFT), a common technique for model specialization. Existing recovery methods rely on data-intensive global parameter adjustments, implicitly assuming that SFT deeply corrupts the models' ability to recognize their knowledge boundaries. However, we observe that fine-tuned LLMs still preserve this ability; what is damaged is their capacity to faithfully express that awareness. Building on this, we propose Honesty-Critical Neurons Restoration (HCNR) to surgically repair this suppressed capacity. HCNR identifies and restores key expression-governing neurons to their pre-trained state while harmonizing them with task-oriented neurons via Hessian-guided compensation. Experiments on four QA tasks and five LLM families demonstrate that HCNR effectively recovers 33.25% of the compromised honesty while achieving at least 2.23x speedup with over 10x less data compared to baseline methods, offering a practical solution for trustworthy LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の誠実さは、高レベルのドメインへの安全なデプロイにおいてますます重要になっています。
しかし、この重要な特徴はモデル特殊化の一般的な技術である教師付き微調整(SFT)によって著しく損なわれている。
既存のリカバリ手法はデータ集約的なグローバルパラメータ調整に依存しており、SFTがモデルの知識境界を認識する能力を深く損なうことを暗黙的に仮定している。
しかし, 微調整LDMは依然としてこの能力を維持しており, 損傷しているのは, その認識を忠実に表現する能力である。
そこで我々は,Honesty-Critical Neurons Restoration (HCNR)を提案する。
HCNRは、Hessian-guided compensationを介してタスク指向ニューロンと調和しながら、キー発現制御ニューロンを事前訓練状態に同定し、復元する。
4つのQAタスクと5つのLLMファミリーの実験では、HCNRは妥協された誠実さの33.25%を効果的に回復し、最低でも2.23倍のスピードアップを達成した。
関連論文リスト
- Rethinking LLM Parametric Knowledge as Post-retrieval Confidence for Dynamic Retrieval and Reranking [23.1400319714807]
大規模言語モデル(LLM)は、知識の範囲を超えて疑問に直面したとき、しばしば不正確な応答(幻覚)を生成する。
Retrieval-Augmented Generation (RAG)は、外部知識を活用することでこの問題に対処するが、重要な課題は、検索されたコンテキストが特定のクエリに応答する能力を効果的に強化するかどうかである。
この課題は知識境界認識の重要性を浮き彫りにしており、これは現在の手法が個別のラベルや限られた信号障害に適切に対処する方法である。
論文 参考訳(メタデータ) (2025-09-08T09:37:20Z) - NAPER: Fault Protection for Real-Time Resource-Constrained Deep Neural Networks [18.79943285154573]
メモリビットフリップはディープニューラルネットワーク(DNN)の精度を著しく低下させる
Triple Modular Redundancy (TMR)のような従来の保護アプローチは、信頼性を維持するために精度を犠牲にすることが多い。
我々は,この課題にアンサンブル学習を通じて対処する新しい保護手法であるNAPERを紹介する。
論文 参考訳(メタデータ) (2025-04-09T05:37:54Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。