論文の概要: Zero-Shot Multi-task Hallucination Detection
- arxiv url: http://arxiv.org/abs/2403.12244v1
- Date: Mon, 18 Mar 2024 20:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:02:18.223254
- Title: Zero-Shot Multi-task Hallucination Detection
- Title(参考訳): ゼロショットマルチタスク幻覚検出
- Authors: Patanjali Bhamidipati, Advaith Malladi, Manish Shrivastava, Radhika Mamidi,
- Abstract要約: 幻覚は、生成したテキストがソースへの忠実さを欠いているモデルにおいて、創発的な状態である。
幻覚を正式に定義し,ゼロショット設定における定量的検出のための枠組みを提案する。
幻覚検出では, モデル認識設定では0.78, モデル認識設定では0.61の精度が得られた。
- 参考スコア(独自算出の注目度): 8.539639901976594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent studies, the extensive utilization of large language models has underscored the importance of robust evaluation methodologies for assessing text generation quality and relevance to specific tasks. This has revealed a prevalent issue known as hallucination, an emergent condition in the model where generated text lacks faithfulness to the source and deviates from the evaluation criteria. In this study, we formally define hallucination and propose a framework for its quantitative detection in a zero-shot setting, leveraging our definition and the assumption that model outputs entail task and sample specific inputs. In detecting hallucinations, our solution achieves an accuracy of 0.78 in a model-aware setting and 0.61 in a model-agnostic setting. Notably, our solution maintains computational efficiency, requiring far less computational resources than other SOTA approaches, aligning with the trend towards lightweight and compressed models.
- Abstract(参考訳): 近年,大規模言語モデルの広範囲な活用は,テキスト生成の品質評価やタスク関連性評価において,ロバストな評価手法の重要性を浮き彫りにしている。
これは、生成したテキストがソースへの忠実さに欠け、評価基準から逸脱する、モデルにおける創発的条件である幻覚として知られる一般的な問題を明らかにしている。
本研究では,幻覚を正式に定義し,ゼロショット設定における定量的検出のための枠組みを提案する。
幻覚検出では, モデル認識設定では0.78, モデル認識設定では0.61の精度が得られた。
特に、我々のソリューションは計算効率を保ち、他のSOTAアプローチよりも計算資源をはるかに少なくし、軽量で圧縮されたモデルへの傾向に合わせている。
関連論文リスト
- Few-Shot Optimized Framework for Hallucination Detection in Resource-Limited NLP Systems [1.0124625066746595]
本稿では,DeepSeek Few-shotの最適化を導入し,反復的なプロンプトエンジニアリングによりラベル生成の弱さを高める。
下流モデルの性能を大幅に向上させる高品質なアノテーションを実現する。
さらに、これらの最適化アノテーションに基づいてMistral-7B-Instruct-v0.3モデルを微調整し、リソース制限設定における幻覚を正確に検出する。
論文 参考訳(メタデータ) (2025-01-28T01:26:22Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Probing of Quantitative Values in Abstractive Summarization Models [0.0]
入力テキスト中の定量値の抽象要約モデルによるモデリングの有効性を評価する。
以上の結果から,最近のSOTA性能モデルのエンコーダは,量的価値を適切に表現する埋め込みの提供に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2022-10-03T00:59:50Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Improving Faithfulness in Abstractive Summarization with Contrast
Candidate Generation and Selection [54.38512834521367]
モデル非依存後処理技術としてのコントラスト候補生成と選択について検討する。
代替候補要約を生成して判別補正モデルを学習する。
このモデルを使用して、最終的な出力サマリーとして最適な候補を選択する。
論文 参考訳(メタデータ) (2021-04-19T05:39:24Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。