論文の概要: Hallucination Detection with Small Language Models
- arxiv url: http://arxiv.org/abs/2506.22486v1
- Date: Tue, 24 Jun 2025 02:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.408352
- Title: Hallucination Detection with Small Language Models
- Title(参考訳): 小言語モデルによる幻覚検出
- Authors: Ming Cheung,
- Abstract要約: 本稿では,大規模言語モデルによって生成された応答を検証するために,複数の小言語モデルを統合するフレームワークを提案する。
その結果,幻覚と比較してF1スコアが10%改善し,正しい反応が検出できた。
- 参考スコア(独自算出の注目度): 1.9181612035055007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the introduction of ChatGPT, large language models (LLMs) have demonstrated significant utility in various tasks, such as answering questions through retrieval-augmented generation. Context can be retrieved using a vectorized database, serving as a foundation for LLMs to generate responses. However, hallucinations in responses can undermine the reliability of LLMs in practical applications, and they are not easily detectable in the absence of ground truth, particularly in question-and-answer scenarios. This paper proposes a framework that integrates multiple small language models to verify responses generated by LLMs using the retrieved context from a vectorized database. By breaking down the responses into individual sentences and utilizing the probability of generating "Yes" tokens from the outputs of multiple models for a given set of questions, responses, and relevant context, hallucinations can be detected. The proposed framework is validated through experiments with real datasets comprising over 100 sets of questions, answers, and contexts, including responses with fully and partially correct sentences. The results demonstrate a 10\% improvement in F1 scores for detecting correct responses compared to hallucinations, indicating that multiple small language models can be effectively employed for answer verification, providing a scalable and efficient solution for both academic and practical applications.
- Abstract(参考訳): ChatGPTの導入以来、大規模言語モデル(LLM)は、検索強化世代による質問に答えるなど、様々なタスクにおいて重要な有用性を示している。
コンテキストはベクトル化されたデータベースを使って検索でき、LSMが応答を生成する基盤として機能する。
しかし、応答における幻覚は、現実的な応用においてLLMの信頼性を損なう可能性があり、特に疑問と答えのシナリオにおいて、基礎的な真実が欠如している場合には容易には検出できない。
本稿では,複数の小言語モデルを統合して,ベクトル化データベースから検索したコンテキストを用いてLLMが生成した応答を検証するフレームワークを提案する。
応答を個々の文に分解し、複数のモデルの出力から「Yes」トークンを生成する確率を与えられた質問、応答、関連するコンテキストの集合に利用することにより、幻覚を検出することができる。
提案フレームワークは,完全かつ部分的に正しい文を含む100以上の質問,回答,コンテキストからなる実際のデータセットを用いた実験によって検証される。
その結果、幻覚と比較して正しい応答を検出するためのF1スコアが10倍改善され、複数の小言語モデルが効果的に回答の検証に利用でき、学術的・実践的な双方にスケーラブルで効率的なソリューションが提供されることが示された。
関連論文リスト
- LargePiG: Your Large Language Model is Secretly a Pointer Generator [15.248956952849259]
本稿では,Large Language Models (LLMs) に基づく問合せ生成による幻覚問題の新しいタイプとして,関連性幻覚と事実性幻覚を導入する。
LLM生成クエリの形式からコンテンツを切り離す効果的な方法を提案し、入力から抽出・統合された事実知識を保存し、LLMの強力な言語機能を用いて関数語を含む構文構造をコンパイルする。
論文 参考訳(メタデータ) (2024-10-15T07:41:40Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。