論文の概要: LLM Ghostbusters: Surgical Hallucination Suppression via Adaptive Unlearning
- arxiv url: http://arxiv.org/abs/2605.01047v1
- Date: Fri, 01 May 2026 19:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.555962
- Title: LLM Ghostbusters: Surgical Hallucination Suppression via Adaptive Unlearning
- Title(参考訳): LLMゴーストバスター:適応的アンラーニングによる幻覚抑制
- Authors: Joseph Spracklen, Pedram Aghazadeh, Farinaz Koushanfar, Murtuza Jadliwala,
- Abstract要約: 一般モデルの実用性を維持しながら幻覚を外科的に抑制する,ポストデプロイフレームワークであるAdaptive Unlearningを提案する。
以上の結果から,AUのパッケージレートは81%減少し,スロープスクワット攻撃面の大幅な減少が認められた。
解析の結果,分布変化はパッケージ関連世代に集中しており,一般的なコーディング行動にはほとんど影響を与えていないことがわかった。
- 参考スコア(独自算出の注目度): 12.855537727854975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations, outputs that sound plausible but are factually incorrect, remain an open challenge for deployed LLMs. In code generation, models frequently hallucinate non-existent software packages, recommending imports and installation commands for fictional libraries. This creates a critical supply-chain vulnerability: an attacker can proactively register such packages on public registries with malicious payloads that are subsequently installed and executed by developers or autonomous agents, a class of package confusion attack known as slopsquatting. Once a model is deployed, mitigating this failure mode is difficult: full retraining is costly, and existing approaches either cause severe degradation of model utility or rely on a pre-specified forget-set, an assumption that does not apply to the unbounded space of hallucinations. To address this problem, we present Adaptive Unlearning (AU), a post-deployment framework that surgically suppresses hallucinations while preserving general model utility. AU introduces a hybrid token-level objective that simultaneously reinforces valid outputs and suppresses hallucinated ones. Combined with an adaptive discovery loop that continuously surfaces new hallucination-inducing contexts without human supervision, AU enables generalization to unseen prompts and hallucinations. We demonstrate that AU reduces package hallucination rates by 81%, corresponding to a substantial reduction in slopsquatting attack surface, while maintaining performance on standard coding benchmarks. Our analysis shows that distributional changes are concentrated on package-related generations, leaving general coding behavior largely unaffected and confirming that AU's effect is isolated to the targeted distribution. AU operates entirely on model-generated data, requires no human annotation, and generalizes across domains.
- Abstract(参考訳): 幻覚(Halucinations)は、可聴性があるが、実際には正しくない出力であり、デプロイされたLSMにとってオープンな課題である。
コード生成では、モデルは既存のソフトウェアパッケージを幻覚させ、フィクションライブラリのインポートとインストールコマンドを推奨する。
攻撃者は、悪質なペイロードでパブリックレジストリにそのようなパッケージを積極的に登録し、その後、開発者または自律エージェントによってインストールされ、実行される。
フルリトレーニングはコストがかかり、既存のアプローチはモデルユーティリティの大幅な劣化を招いたり、事前に特定されたリザーブセットに依存していたりします。
この問題を解決するために,一般モデルの実用性を維持しながら幻覚を外科的に抑制するアダプティブ・アンラーニング(Adaptive Unlearning, AU)を提案する。
AUは、有効な出力を同時に強化し、幻覚を抑える、ハイブリッドトークンレベルの目的を導入する。
AUは、人間の監督なしに新しい幻覚を誘発するコンテキストを連続的に表わす適応的な発見ループと組み合わせることで、幻覚のプロンプトと幻覚の発見を一般化することができる。
AUは,標準符号化ベンチマークの性能を維持しつつ,スロープスクワット攻撃面の大幅な低減に対応して,パッケージ幻覚率を81%削減することを示した。
解析の結果,分布変化はパッケージ関連世代に集中しており,一般的な符号化動作は影響を受けておらず,AUの効果が標的分布に孤立していることが確認された。
AUは、モデル生成データを完全に操作し、人間のアノテーションを必要とせず、ドメインをまたいだ一般化を行う。
関連論文リスト
- VCE: A zero-cost hallucination mitigation method of LVLMs via visual contrastive editing [70.82867621856968]
大きな視覚言語モデル(LVLM)は、しばしば物体幻覚(OH)に悩まされる
近年の研究では、幻覚の問題は言語の先行に起因している可能性が示唆されている。
本稿では視覚コントラスト編集(VCE)を提案する。
論文 参考訳(メタデータ) (2026-04-21T12:40:07Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Osiris: A Lightweight Open-Source Hallucination Detection System [30.63248848082757]
幻覚は、RAGシステムが本番環境に配備されるのを防ぐ。
幻覚を誘発したマルチホップQAデータセットを提案する。
RAGTruth 幻覚検出ベンチマークにおいて, GPT-4o よりも 7B モデルの方が良好なリコールを実現している。
論文 参考訳(メタデータ) (2025-05-07T22:45:59Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Importing Phantoms: Measuring LLM Package Hallucination Vulnerabilities [11.868859925111561]
大規模言語モデル(LLM)はプログラマのツールキットに不可欠なツールとなっている。
コードを幻覚させる傾向は、悪意あるアクターがソフトウェアサプライチェーンの広い範囲に脆弱性を導入するために利用することができる。
論文 参考訳(メタデータ) (2025-01-31T10:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。