論文の概要: Prompt-Guided Internal States for Hallucination Detection of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.04847v1
- Date: Thu, 07 Nov 2024 16:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:00.211063
- Title: Prompt-Guided Internal States for Hallucination Detection of Large Language Models
- Title(参考訳): 大規模言語モデルの幻覚検出のためのPrompt-Guided内部状態
- Authors: Fujie Zhang, Peiqi Yu, Biao Yi, Baolei Zhang, Tong Li, Zheli Liu,
- Abstract要約: 大規模言語モデル(LLM)の幻覚検出のための新しい枠組み、即時誘導型内部状態を提案する。
この構造を、異なるドメインのテキスト間でより健全で一貫性のあるものにします。
実験結果から,本フレームワークは既存の幻覚検出手法のクロスドメイン一般化を著しく促進することが明らかとなった。
- 参考スコア(独自算出の注目度): 8.218777718463627
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across a variety of tasks in different domains. However, they sometimes generate responses that are logically coherent but factually incorrect or misleading, which is known as LLM hallucinations. Data-driven supervised methods train hallucination detectors by leveraging the internal states of LLMs, but detectors trained on specific domains often struggle to generalize well to other domains. In this paper, we aim to enhance the cross-domain performance of supervised detectors with only in-domain data. We propose a novel framework, prompt-guided internal states for hallucination detection of LLMs, namely PRISM. By utilizing appropriate prompts to guide changes in the structure related to text truthfulness within the LLM's internal states, we make this structure more salient and consistent across texts from different domains. We integrated our framework with existing hallucination detection methods and conducted experiments on datasets from different domains. The experimental results indicate that our framework significantly enhances the cross-domain generalization of existing hallucination detection methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、異なるドメインの様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは時々、論理的に一貫性があるが事実的に誤りや誤解を招く反応を生じさせ、これはLLM幻覚として知られる。
データ駆動型監視法は、LLMの内部状態を活用することで幻覚検出器を訓練するが、特定のドメインで訓練された検出器は、他のドメインにうまく一般化するのに苦労することが多い。
本稿では、ドメイン内データのみを用いて、教師付き検出器のクロスドメイン性能を向上させることを目的とする。
PRISM と呼ばれる LLM の幻覚検出のための新しい枠組み,即時誘導型内部状態を提案する。
LLMの内部状態におけるテキストの真理性に関連する構造の変化を導くための適切なプロンプトを利用することで、この構造を異なるドメインのテキスト間でより健全で一貫性のあるものにする。
我々は,既存の幻覚検出手法と統合し,異なる領域のデータセットについて実験を行った。
実験結果から,本フレームワークは既存の幻覚検出手法のクロスドメイン一般化を著しく促進することが示された。
関連論文リスト
- Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models [12.27217471495276]
大型言語モデル(LLM)における幻覚は、一貫性はあるが事実的に不正確な応答を生成する。
我々は、リアルタイム幻覚検出にLLMの内部状態を活用する教師なしのトレーニングフレームワークであるMINDを提案する。
また,複数のLLMを対象とした幻覚検出のための新しいベンチマークであるHELMを提案する。
論文 参考訳(メタデータ) (2024-03-11T05:51:03Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Towards Generalization on Real Domain for Single Image Dehazing via
Meta-Learning [41.99615673136883]
合成画像から得られた内部情報は、通常、実際の領域では準最適である。
本稿では,メタラーニングに基づくドメイン一般化フレームワークを提案する。
提案手法は,最先端の競争相手よりも優れた一般化能力を有する。
論文 参考訳(メタデータ) (2022-11-14T07:04:00Z) - Cross-domain Face Presentation Attack Detection via Multi-domain
Disentangled Representation Learning [109.42987031347582]
顔提示攻撃検出(PAD)は,顔認識システムにおいて緊急に解決すべき課題である。
クロスドメイン顔PADのための効率的な非交叉表現学習を提案する。
我々のアプローチは、不整合表現学習(DR-Net)とマルチドメイン学習(MD-Net)からなる。
論文 参考訳(メタデータ) (2020-04-04T15:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。