論文の概要: HalluHard: A Hard Multi-Turn Hallucination Benchmark
- arxiv url: http://arxiv.org/abs/2602.01031v1
- Date: Sun, 01 Feb 2026 05:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.54189
- Title: HalluHard: A Hard Multi-Turn Hallucination Benchmark
- Title(参考訳): HalluHard: ハードなマルチターン幻覚ベンチマーク
- Authors: Dongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko,
- Abstract要約: 950のシード質問を伴う、挑戦的なマルチターン幻覚ベンチマークである、textbfHalluHard$を紹介します。
我々は、事実の主張に対してインラインの引用を要求することによって、根拠を運用する。
幻覚行動は, モデル能力, 回転位置, 効果的な推論, 必要な知識の種類によって形成されていることを示す。
- 参考スコア(独自算出の注目度): 43.64988016057411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) still produce plausible-sounding but ungrounded factual claims, a problem that worsens in multi-turn dialogue as context grows and early errors cascade. We introduce $\textbf{HalluHard}$, a challenging multi-turn hallucination benchmark with 950 seed questions spanning four high-stakes domains: legal cases, research questions, medical guidelines, and coding. We operationalize groundedness by requiring inline citations for factual assertions. To support reliable evaluation in open-ended settings, we propose a judging pipeline that iteratively retrieves evidence via web search. It can fetch, filter, and parse full-text sources (including PDFs) to assess whether cited material actually supports the generated content. Across a diverse set of frontier proprietary and open-weight models, hallucinations remain substantial even with web search ($\approx 30\%$ for the strongest configuration, Opus-4.5 with web search), with content-grounding errors persisting at high rates. Finally, we show that hallucination behavior is shaped by model capacity, turn position, effective reasoning, and the type of knowledge required.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、文脈の増大と早期エラーのカスケードによって、マルチターン対話において悪化する問題である、可聴性を持つが、根拠のない事実的主張を生成する。
$\textbf{HalluHard}$は、訴訟、研究問題、医療ガイドライン、コーディングの4つの高い領域にまたがる950のシード質問を伴う、挑戦的なマルチターン幻覚ベンチマークである。
我々は、事実の主張に対してインラインの引用を要求することによって、根拠を運用する。
オープンエンド環境での信頼性評価を支援するため,Web検索により証拠を反復的に検索する判定パイプラインを提案する。
引用された資料が実際に生成されたコンテンツをサポートするかどうかを評価するために、全文ソース(PDFを含む)をフェッチ、フィルタリング、解析することができる。
さまざまなフロンティアのプロプライエタリモデルとオープンウェイトモデル全体にわたって、幻覚はWeb検索(最強の設定は\approx 30\%$、Web検索はOpus-4.5)でさえも大きく保たれており、コンテンツグラウンドエラーは高い速度で持続している。
最後に, 幻覚行動は, モデル能力, 回転位置, 効果的な推論, 必要な知識の種類によって形成されていることを示す。
関連論文リスト
- Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance [23.470768802111007]
$textbfRebuttalAgent$は、エビデンス中心の計画タスクとしてrebuttal生成を再設計する、新しいマルチエージェントフレームワークである。
本システムでは,複雑なフィードバックをアトミックな関心事に分解し,ハイブリッドコンテキストを動的に構築する。
ドラフト前にインスペクタブルなレスポンスプランを生成することで、$textbfRebuttalAgent$は、すべての引数が内部または外部のエビデンスに明示的に固定されていることを保証します。
論文 参考訳(メタデータ) (2026-01-20T17:23:51Z) - C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation [58.40263551616771]
本稿では,いくつかの知識文書に基づいて,詳細なQAデータセットを自動的に構築するエージェントフレームワークであるHaluAgentを紹介する。
本実験は,手作業で設計したルールと迅速な最適化により,生成データの品質が向上できることを実証する。
論文 参考訳(メタデータ) (2025-04-14T12:21:55Z) - From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization [8.134933751871861]
複数の文書からトピック特化情報を要約する際に,大規模言語モデル (LLM) において幻覚がどのように現れるかを検討する。
平均して、LLM生成サマリーの最大75%は幻覚化され、要約の終わりに幻覚が生じる可能性が高い。
これらの幻覚の特徴を理解するために、手動で700以上の洞察を評価し、ほとんどのエラーは指示に従わなかったり、過度に総合的な洞察が得られなかったりする。
論文 参考訳(メタデータ) (2024-10-17T18:38:53Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。