論文の概要: Catch Me if You Search: When Contextual Web Search Results Affect the Detection of Hallucinations
- arxiv url: http://arxiv.org/abs/2504.01153v1
- Date: Tue, 01 Apr 2025 19:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:20.172878
- Title: Catch Me if You Search: When Contextual Web Search Results Affect the Detection of Hallucinations
- Title(参考訳): 検索してみる: コンテキストWeb検索結果が幻覚の検出に影響を及ぼすとき
- Authors: Mahjabin Nahar, Eun-Ju Lee, Jin Won Park, Dongwon Lee,
- Abstract要約: 近年,ウェブ検索の結果を大規模言語モデル (LLM) に統合することで,人々が生成したコンテンツの検証に利用するかどうかが疑問視されている。
本研究では,LLM生成コンテンツの評価において,検索結果の提供が参加者の認識精度と信頼度に与える影響について検討した。
- 参考スコア(独自算出の注目度): 5.916307923025106
- License:
- Abstract: While we increasingly rely on large language models (LLMs) for various tasks, these models are known to produce inaccurate content or 'hallucinations' with potentially disastrous consequences. The recent integration of web search results into LLMs prompts the question of whether people utilize them to verify the generated content, thereby avoiding falling victim to hallucinations. This study (N = 560) investigated how the provision of search results, either static (fixed search results) or dynamic (participant-driven searches), affect participants' perceived accuracy and confidence in evaluating LLM-generated content (i.e., genuine, minor hallucination, major hallucination), compared to the control condition (no search results). Findings indicate that participants in both static and dynamic conditions (vs. control) rated hallucinated content to be less accurate. However, those in the dynamic condition rated genuine content as more accurate and demonstrated greater overall confidence in their assessments than those in the static or control conditions. In addition, those higher in need for cognition (NFC) rated major hallucinations to be less accurate than low NFC participants, with no corresponding difference for genuine content or minor hallucinations. These results underscore the potential benefits of integrating web search results into LLMs for the detection of hallucinations, as well as the need for a more nuanced approach when developing human-centered systems, taking user characteristics into account.
- Abstract(参考訳): さまざまなタスクに対して大規模言語モデル(LLM)にますます依存していますが、これらのモデルは不正確なコンテンツや、潜在的に破壊的な結果をもたらす可能性のある「幻覚」を生み出すことが知られています。
近年, Web 検索結果を LLM に統合したことにより, 生成したコンテンツの検証に利用しているのかという疑問が持ち上がっている。
本研究 (N = 560) では, 静的(固定された検索結果) あるいは動的(参加者駆動検索) の検索結果提供が, 参加者のLLM生成コンテンツ(真の, マイナー幻覚, メジャー幻覚) の評価における精度および信頼度に与える影響を, 制御条件(検索結果なし)と比較して検討した。
その結果,静的条件および動的条件(vs. 制御)の参加者は,幻覚内容の精度が低いことが示された。
しかし, 動的条件下では, 実内容の精度が向上し, 静的条件や制御条件よりも総合的な評価の信頼性が高かった。
さらに、認知能力(NFC)を必要とする人は、真の内容やマイナーな幻覚とは無関係に、低いNFC参加者よりも精度が低いと評価した。
これらの結果から,幻覚の検出に Web 検索結果を LLM に統合することのメリットと,ユーザ特性を考慮した人間中心のシステム開発において,よりニュアンスなアプローチの必要性が示唆された。
関連論文リスト
- Trust Me, I'm Wrong: High-Certainty Hallucinations in LLMs [45.13670875211498]
LLM(Large Language Models)はしばしば、幻覚として知られる実世界の事実に根ざしていない出力を生成する。
モデルが正しい知識を持つ場合でも、高い確実性で幻覚できることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Can Your Uncertainty Scores Detect Hallucinated Entity? [14.432545893757677]
本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T16:01:41Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations [9.740345290187307]
本研究の目的は,幻覚の程度を体系的に変化させることで,幻覚の人間の知覚を理解することである。
その結果,真の内容の正しさに悪影響を及ぼすことなく,覚醒検出の精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-04-04T18:34:32Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - DelucionQA: Detecting Hallucinations in Domain-specific Question
Answering [22.23664008053246]
幻覚は、大言語モデル(LLM)によって生成されたテキストでよく知られた現象である
我々は、ドメイン固有のQAタスクのためのLLMの検索による幻覚をキャプチャするデータセットDelucionQAを紹介する。
本研究では,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。
論文 参考訳(メタデータ) (2023-12-08T17:41:06Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - On Hallucination and Predictive Uncertainty in Conditional Language
Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。
認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。
提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文 参考訳(メタデータ) (2021-03-28T00:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。