論文の概要: H-Node Attack and Defense in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.26045v1
- Date: Fri, 27 Mar 2026 03:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.343083
- Title: H-Node Attack and Defense in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるHノード攻撃と防御
- Authors: Eric Yocam, Varghese Vaidyan, Yong Wang,
- Abstract要約: H-Node ANCは、トランスフォーマーベースの大規模言語モデルにおける幻覚表現を特定し、悪用し、防御する。
ラストトケン隠れ状態で訓練されたロジスティック回帰プローブは、幻覚信号を小さな高分散次元の集合に局在させる。
アダプティブANCディフェンスは、信頼度重み付きキャンセルを用いてH-Node過剰なインパスを抑制する。
- 参考スコア(独自算出の注目度): 3.2857473188034976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present H-Node Adversarial Noise Cancellation (H-Node ANC), a mechanistic framework that identifies, exploits, and defends hallucination representations in transformer-based large language models (LLMs) at the level of individual hidden-state dimensions. A logistic regression probe trained on last-token hidden states localizes hallucination signal to a small set of high-variance dimensions -- termed Hallucination Nodes (H-Nodes) -- with probe AUC reaching 0.90 across four architectures. A white-box adversarial attack amplifies these dimensions at inference time via a real-time forward hook, achieving a selectivity of 3.02x with less than 10% visibility to the defender. Adaptive ANC defense suppresses H-Node excess in-pass using confidence-weighted cancellation, reducing grounded activation drift by 33-42% over static cancellation. A dynamic iterative extension that re-ranks cancellation targets across successive passes recovers up to 0.69 robustness from a single-pass baseline of 8%. All contributions are validated on OPT-125M, Phi-3-mini-4k-instruct, LLaMA-3-8B-Instruct, and Mistral-7B-Instruct-v0.3 (125M-8B parameters). Perplexity impact is surgical (<5%) and MMLU degradation is at most 3%, confirming that the defense does not impair general reasoning capability.
- Abstract(参考訳): H-Node Adversarial Noise Cancellation (H-Node ANC) は,変圧器を用いた大規模言語モデル(LLM)において,個々の隠れ状態次元のレベルで幻覚表現を識別し,活用し,保護する機構である。
最終トーケンの隠れ状態に基づいてトレーニングされたロジスティック回帰プローブは、幻覚信号を、H-ノードと呼ばれる小さな高分散次元のセットにローカライズし、プローブAUCは4つのアーキテクチャで0.90に達した。
ホワイトボックスの敵攻撃は、これらの次元をリアルタイムフォワードフックを介して推論時に増幅し、ディフェンダーに対して10%未満の可視性で3.02xの選択性を達成する。
アダプティブANCディフェンスは、信頼度重み付きキャンセルを用いてH-Node過剰なインパスを抑え、静的キャンセルよりも接地されたアクティベーションドリフトを33-42%削減する。
逐次パス間でキャンセル対象を再ランクする動的反復拡張は、シングルパスベースラインの8%から最大0.69ロバスト性を取り戻す。
すべての貢献は、OPT-125M、Phi-3-mini-4k-インストラクト、LLaMA-3-8B-インストラクト、Mistral-7B-インストラクト-v0.3(125M-8Bパラメータ)で検証される。
パープレキシティ・インパクトは外科的(5%)であり、MMLU劣化は3%以上であり、防御が一般的な推論能力を損なわないことを確認している。
関連論文リスト
- Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models [6.53417787720275]
本稿では,幻覚関連ニューラルアクティベーションをトランスフォーマー残流内の構造的干渉として扱うリアルタイム推論フレームワークを提案する。
このフレームワークは階層的に線形な探索を通じて幻覚ノード(H-Nodes)を特定し、信頼度重み付けされたフォワードフックを使用してそれらを抑圧する。
論文 参考訳(メタデータ) (2026-03-10T19:43:18Z) - Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony [7.6658082440595186]
ばらつきボクセル環境における非対称な3次元追尾回避は,通信遅延,部分観測可能性,非ホロノミック操作制限下では困難である。
経路誘導型分散型追従足場上に構築し,通信自由協調性の向上を図る。
冗長なクロスエージェントチャネルを明示的に切断することで、複合的なエラーカスケードを抑えることができ、レイテンシーが発生しやすいデプロイメントにおけるロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2026-03-09T11:44:04Z) - Breaking the Geometric Bottleneck: Contrastive Expansion in Asymmetric Cross-Modal Distillation [0.0]
グローバルビジョン変換器をキャパシティ制約CNNに蒸留する際の次元崩壊現象について検討する。
厳密な集中型SVDとエフェクトランクを用いることで、CIFAR-10上でキャパシティ非依存の位相遷移を示す。
さらに、DINOv2の均一な幾何は部分的に崩壊を防ぐが、コントラスト展開はCNNのトポロジカルキャパシティ限界に達する普遍的な要件であることを示す。
論文 参考訳(メタデータ) (2026-03-05T05:37:51Z) - When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文 参考訳(メタデータ) (2026-02-21T07:22:37Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - MARS: A Malignity-Aware Backdoor Defense in Federated Learning [51.77354308287098]
最近提案されたSOTA攻撃(3DFed)は、ディフェンダーがバックドアモデルを受け入れたかどうかを判断するためにインジケータ機構を使用する。
本稿では,各ニューロンの有害な範囲を示すためにバックドアエネルギーを利用するMARS(Maignity-Aware backdooR defenSe)を提案する。
実験により、MARSはSOTAのバックドア攻撃に対して防御でき、既存の防御を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T14:50:02Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。