論文の概要: CORVUS: Red-Teaming Hallucination Detectors via Internal Signal Camouflage in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.14310v1
- Date: Mon, 19 Jan 2026 08:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.091294
- Title: CORVUS: Red-Teaming Hallucination Detectors via Internal Signal Camouflage in Large Language Models
- Title(参考訳): CORVUS:大規模言語モデルにおける内部信号カモフラージュによる再結合幻覚検出器
- Authors: Nay Myat Min, Long H. Pham, Hongyu Zhang, Jun Sun,
- Abstract要約: シングルパス幻覚検出器は大きな言語モデルの内部テレメトリに依存しており、暗黙的に幻覚がこれらの信号に分離可能な痕跡を残すと仮定している。
検出器の固定を保ちながら、モデル上に軽量なLoRAアダプタを微調整するホワイトボックス・モデルサイドの敵について検討し、CORVUSを紹介する。
CORVUSは、教師の強制下でカモフラージュ検出可視のテレメトリを学ぶ。
- 参考スコア(独自算出の注目度): 14.283744054353432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-pass hallucination detectors rely on internal telemetry (e.g., uncertainty, hidden-state geometry, and attention) of large language models, implicitly assuming hallucinations leave separable traces in these signals. We study a white-box, model-side adversary that fine-tunes lightweight LoRA adapters on the model while keeping the detector fixed, and introduce CORVUS, an efficient red-teaming procedure that learns to camouflage detector-visible telemetry under teacher forcing, including an embedding-space FGSM attention stress test. Trained on 1,000 out-of-distribution Alpaca instructions (<0.5% trainable parameters), CORVUS transfers to FAVA-Annotation across Llama-2, Vicuna, Llama-3, and Qwen2.5, and degrades both training-free detectors (e.g., LLM-Check) and probe-based detectors (e.g., SEP, ICR-probe), motivating adversary-aware auditing that incorporates external grounding or cross-model evidence.
- Abstract(参考訳): シングルパス幻覚検出器は、大きな言語モデルの内部テレメトリ(例えば、不確実性、隠れ状態の幾何学、注意)に依存し、暗黙的に幻覚がこれらの信号に分離可能な痕跡を残すと仮定する。
我々は,検出器を固定しつつ,モデル上に軽量なLORAアダプタを微調整するホワイトボックス型モデル側対向体について検討し,組込み空間FGSMアテンションストレステストを含む教師の強制下で検出可視テレメトリを学習する効率的なリピート手順であるCORVUSを紹介した。
1,000のアウト・オブ・ディストリビューション・アルパカ命令 ( 0.5% のトレーニング可能なパラメータ) で訓練されたCORVUSは、ラマ-2、ヴィクナ、ラマ-3、Qwen2.5にまたがるFAVAアノテーションに移行し、トレーニング不要な検出器(例えば、LLM-Check)とプローブベースの検出器(例えば、SEP、ICR-probe)の両方を分解し、外部のグラウンドやクロスモデル証拠を含む敵意識監査を動機付ける。
関連論文リスト
- RADAR: Retrieval-Augmented Detector with Adversarial Refinement for Robust Fake News Detection [50.073924438848316]
本稿では,強靭な偽ニュース検出のための対角補正機能を備えた検索拡張検出器RADARを提案する。
提案手法では,現実の物品を現実の摂動で書き直すジェネレータを用いて,高密度経路探索によるクレームの検証を行う軽量検出器と組み合わせる。
論文 参考訳(メタデータ) (2026-01-07T14:52:15Z) - FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering [14.550872089352943]
FaithSCANは視覚言語モデルの豊富な内部信号を利用して幻覚を検出する軽量ネットワークである。
本稿では,LLM-as-a-JudgeパラダイムをVQA幻覚に拡張し,モデル依存型監視信号の自動生成のための低コスト戦略を提案する。
深い分析により、幻覚は視覚知覚、相互モーダル推論、言語復号における系統的な内部状態の変化から生じることが示された。
論文 参考訳(メタデータ) (2026-01-01T09:19:39Z) - Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders [39.5490415037017]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。
既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。
RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
論文 参考訳(メタデータ) (2025-12-09T18:33:22Z) - A Single Direction of Truth: An Observer Model's Linear Residual Probe Exposes and Steers Contextual Hallucinations [0.0]
ジェネレータ非依存オブザーバモデルは、その残留ストリーム上の1つのフォワードパスと線形プローブを介して幻覚を検出する。
本発明のプローブは、忠実テキストから幻覚を分離した1つの直線方向を分離し、ベースラインを5〜27ポイント上回る。
論文 参考訳(メタデータ) (2025-07-31T03:26:57Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Mechanistic Anomaly Detection for "Quirky" Language Models [1.2581965558321395]
我々は、機械的異常検出を用いて、有能なモデルの監視を強化する。
我々は、トレーニング環境と大きく異なるテスト環境から点をフラグする検出器を訓練する。
検知器はいくつかのタスクで高い差別を達成することができるが、すべてのモデルやタスクで有効な検出器は存在しない。
論文 参考訳(メタデータ) (2025-04-09T06:03:18Z) - Detection-Friendly Nonuniformity Correction: A Union Framework for Infrared UAVTarget Detection [18.776245480405958]
熱検出器を用いて撮影した赤外線無人航空機(UAV)画像は、しばしば温度依存性の低周波不均一性によって影響を受ける。
赤外線とUAVの両方の目標検出タスクに同時に対応できる検出フレンドリーな統合フレームワークを提案する。
検出誘導型自己監督損失を導入し,2つのタスク間の特徴的不一致を低減し,不均一なレベルが変化するように検出の堅牢性を向上する。
論文 参考訳(メタデータ) (2025-04-05T01:29:22Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。