論文の概要: Ask a Local: Detecting Hallucinations With Specialized Model Divergence
- arxiv url: http://arxiv.org/abs/2506.03357v1
- Date: Tue, 03 Jun 2025 20:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.034772
- Title: Ask a Local: Detecting Hallucinations With Specialized Model Divergence
- Title(参考訳): Ask a Local:特化モデルダイバージェンスによる幻覚の検出
- Authors: Aldan Creo, Héctor Cerezo-Costas, Pedro Alonso-Doval, Maximiliano Hormazábal-Lagos,
- Abstract要約: 本研究では,大規模言語モデルに対する新しい幻覚検出手法であるAsk a Localを紹介する。
提案手法は,言語特化モデルのパープレキシティ分布のばらつきを計算し,ハロゲン化の可能性のあるスパンを同定する。
そこで本研究では,14言語にまたがる人間による質問応答データセットについて,一貫した性能を示す。
- 参考スコア(独自算出の注目度): 0.16874375111244325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in large language models (LLMs) - instances where models generate plausible but factually incorrect information - present a significant challenge for AI. We introduce "Ask a Local", a novel hallucination detection method exploiting the intuition that specialized models exhibit greater surprise when encountering domain-specific inaccuracies. Our approach computes divergence between perplexity distributions of language-specialized models to identify potentially hallucinated spans. Our method is particularly well-suited for a multilingual context, as it naturally scales to multiple languages without the need for adaptation, relying on external data sources, or performing training. Moreover, we select computationally efficient models, providing a scalable solution that can be applied to a wide range of languages and domains. Our results on a human-annotated question-answer dataset spanning 14 languages demonstrate consistent performance across languages, with Intersection-over-Union (IoU) scores around 0.3 and comparable Spearman correlation values. Our model shows particularly strong performance on Italian and Catalan, with IoU scores of 0.42 and 0.38, respectively, while maintaining cross-lingual effectiveness without language-specific adaptations. We release our code and architecture to facilitate further research in multilingual hallucination detection.
- Abstract(参考訳): 大規模言語モデル(LLMs)における幻覚 - モデルが妥当だが事実的に誤った情報を生成している例は、AIにとって重要な課題である。
本稿では,ドメイン固有の不正確さに遭遇した際,特殊モデルが大きな驚きを示すという直感を生かした新しい幻覚検出手法であるAsk a Localを紹介する。
提案手法は,言語特化モデルのパープレキシティ分布のばらつきを計算し,ハロゲン化の可能性のあるスパンを同定する。
適応や外部データソースへの依存,トレーニングの実行を必要とせず,自然に複数の言語に拡張できるため,本手法は多言語対応に特に適している。
さらに、計算効率の良いモデルを選択し、幅広い言語やドメインに適用可能なスケーラブルなソリューションを提供する。
14言語にまたがる人間の注釈付き質問応答データセットの結果、IoU(Intersection-over-Union)のスコアは0.3、Spearmanの相関値に匹敵する。
IoUスコアは0.42と0.38であり、言語固有の適応を伴わない言語間効果は維持されている。
我々は,多言語幻覚検出のさらなる研究を促進するために,コードとアーキテクチャをリリースする。
関連論文リスト
- Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models [10.663446796160567]
生成AIにおける幻覚、特にLarge Language Models(LLMs)は、多言語アプリケーションの信頼性に重大な課題をもたらす。
幻覚検出のための既存のベンチマークは、主に英語といくつかの広く話されている言語に焦点を当てている。
大規模多言語事実検証ベンチマークであるPoly-FEVERを紹介する。
論文 参考訳(メタデータ) (2025-03-19T01:46:09Z) - Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [38.18495961129682]
本稿では,大規模セマンティックコーパスを必要としない新たな言語間探索タスクを提案する。
これは、大きな言語モデルによって生成される障害に挑戦するよりも、真の並列文を言語横断的にランク付けするモデルの能力に焦点を当てている。
ニュースドメインにおける言語対であるドイツ語とフランス語のCLSDタスクのケーススタディを作成します。
論文 参考訳(メタデータ) (2025-02-12T18:54:37Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。