論文の概要: MultiHaluDet: Multilingual Hallucination Detection via LLM Hidden State Probing
- arxiv url: http://arxiv.org/abs/2605.24919v1
- Date: Sun, 24 May 2026 07:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.50955
- Title: MultiHaluDet: Multilingual Hallucination Detection via LLM Hidden State Probing
- Title(参考訳): MultiHaluDet:LLM隠れ状態探索による多言語幻覚検出
- Authors: Riasad Alvi, Nurul Labib Sayeedi, Md. Faiyaz Abdullah Sayeedi,
- Abstract要約: 大規模言語モデル(LLM)における幻覚は、信頼性の高いデプロイメントにとって重要な障壁である。
多言語幻覚を検出する新しい3段階積み重ねフレームワークであるMultiHaluDetを紹介する。
本フレームワークは,HluEvalおよびTriviaQAベンチマークで98.55%のAUROCに到達し,最先端検出性能を実現する。
- 参考スコア(独自算出の注目度): 1.3700362496838856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in Large Language Models (LLMs) represent a critical barrier to their reliable deployment, a vulnerability heavily exacerbated in non-English and resource-constrained contexts. Existing detection approaches that rely on output confidence heuristics or single-layer internal representations frequently fail to capture deep, complex factual inconsistencies across diverse languages. To address this, we introduce MultiHaluDet, a novel three-stage stacking framework that detects multilingual hallucinations by probing the full hidden state trajectories of frozen LLMs without requiring language-specific fine-tuning. Our method extracts sequential features across multiple layers and processes them via a hybrid architecture using multi-scale attention and self-attention pooling. By generating out-of-fold embeddings that feed into a calibrated classical classifier ensemble, MultiHaluDet captures both fine-grained and coarse-grained patterns of factual inconsistency. Extensive experiments demonstrate that our framework achieves state-of-the-art detection performance, reaching up to 98.55% AUROC on the English HaluEval and TriviaQA benchmarks using Mistral-7B and LLaMA2-7B architectures. Crucially, we rigorously evaluate our framework's cross-lingual generalization across high (French), medium (Bangla), and low-resource (Amharic) languages. MultiHaluDet demonstrates exceptional representational robustness, consistently outperforming baselines and successfully transferring hallucination detection capabilities across typologically diverse linguistic tiers.
- Abstract(参考訳): LLM(Large Language Models)における幻覚は、信頼性の高いデプロイメントに対する重要な障壁であり、非英語およびリソース制約のあるコンテキストで著しく悪化する脆弱性である。
出力信頼性ヒューリスティックや単一層の内部表現に依存する既存の検出アプローチは、多言語にわたる深い、複雑な事実の不整合を捉えるのにしばしば失敗する。
そこで本研究では,LLMの完全隠れ状態軌跡を言語固有の微調整を必要とせずに探索することにより,多言語幻覚を検出する新しい3段階積み重ねフレームワークであるMultiHaluDetを紹介する。
提案手法は,複数層にまたがるシーケンシャルな特徴を抽出し,マルチスケールアテンションと自己アテンションプールを用いたハイブリッドアーキテクチャを用いて処理する。
キャリブレーションされた古典的なクラシファイアアンサンブルにフィードするアウト・オブ・フォールドの埋め込みを生成することで、MultiHaluDetは、ファクトの細かいパターンと粗いパターンの両方をキャプチャする。
Mistral-7B と LLaMA2-7B アーキテクチャを用いて,イングランドの HaluEval と TriviaQA ベンチマークで 98.55% AUROC に達した。
重要なことは、我々のフレームワークがハイ(フランス語)、ミディアム(バンガラ)、低リソース(アムハラ)言語にまたがる言語間一般化を厳格に評価する。
MultiHaluDetは、例外的な表現的堅牢性を示し、ベースラインを一貫して上回り、型的に多様な言語層間で幻覚検出能力の伝達に成功した。
関連論文リスト
- Layer-Targeted Multilingual Knowledge Erasure in Large Language Models [15.409568435026015]
多言語一般化を決定する鍵因子として介入深さを同定する。
本稿では,CKA(Centered Kernel Alignment)とLRDS(Lingguistic Regions Development Score)を用いて,中間的言語に依存しないレイヤを識別するフレームワークMUTEを提案する。
論文 参考訳(メタデータ) (2026-02-26T03:00:07Z) - Multilingual Routing in Mixture-of-Experts [45.90403983668531]
並列多言語データセットを用いて、専門家のルーティングパターンを分析する。
MoEモデルは、初期および後期のデコーダ層において、言語固有の方法でトークンをルーティングする。
本稿では,英語で頻繁に活性化される中層タスクエキスパートの促進により,ルータを操る手法を提案する。
論文 参考訳(メタデータ) (2025-10-06T11:09:20Z) - Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection [5.0106565473767075]
大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。
幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。
LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。
このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
論文 参考訳(メタデータ) (2025-09-03T18:52:24Z) - CLAIM: Mitigating Multilingual Object Hallucination in Large Vision-Language Models with Cross-Lingual Attention Intervention [56.08815340137881]
LVLM(Large Vision-Language Models)は、印象的なマルチモーダル能力を示したが、多言語オブジェクト幻覚の傾向は残っていない。
LVLMにおける多言語オブジェクト幻覚(CLAIM)の緩和のための言語横断的注意介入を提案する。
論文 参考訳(メタデータ) (2025-06-03T11:17:16Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models [10.663446796160567]
生成AIにおける幻覚、特にLarge Language Models(LLMs)は、多言語アプリケーションの信頼性に重大な課題をもたらす。
幻覚検出のための既存のベンチマークは、主に英語といくつかの広く話されている言語に焦点を当てている。
大規模多言語事実検証ベンチマークであるPoly-FEVERを紹介する。
論文 参考訳(メタデータ) (2025-03-19T01:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。