論文の概要: Confabulations from ACL Publications (CAP): A Dataset for Scientific Hallucination Detection
- arxiv url: http://arxiv.org/abs/2510.22395v1
- Date: Sat, 25 Oct 2025 18:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.12238
- Title: Confabulations from ACL Publications (CAP): A Dataset for Scientific Hallucination Detection
- Title(参考訳): ACLパブリケーション(CAP):科学的幻覚検出のためのデータセット
- Authors: Federica Gamba, Aman Sinha, Timothee Mickus, Raul Vazquez, Patanjali Bhamidipati, Claudio Savelli, Ahana Chattopadhyay, Laura A. Zanella, Yash Kankanampati, Binesh Arakkal Remesh, Aryan Ashok Chandramania, Rohit Agarwal, Chuyuan Li, Ioana Buhnila, Radhika Mamidi,
- Abstract要約: CAPデータセットは、科学テキスト生成における大規模言語モデル(LLM)の幻覚を研究するための多言語リソースである。
このデータセットは、900のキュレートされた科学的な質問と、公開可能な16のモデルから7000以上のLSM生成された回答で構成されている。
- 参考スコア(独自算出の注目度): 8.258841312112986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the CAP (Confabulations from ACL Publications) dataset, a multilingual resource for studying hallucinations in large language models (LLMs) within scientific text generation. CAP focuses on the scientific domain, where hallucinations can distort factual knowledge, as they frequently do. In this domain, however, the presence of specialized terminology, statistical reasoning, and context-dependent interpretations further exacerbates these distortions, particularly given LLMs' lack of true comprehension, limited contextual understanding, and bias toward surface-level generalization. CAP operates in a cross-lingual setting covering five high-resource languages (English, French, Hindi, Italian, and Spanish) and four low-resource languages (Bengali, Gujarati, Malayalam, and Telugu). The dataset comprises 900 curated scientific questions and over 7000 LLM-generated answers from 16 publicly available models, provided as question-answer pairs along with token sequences and corresponding logits. Each instance is annotated with a binary label indicating the presence of a scientific hallucination, denoted as a factuality error, and a fluency label, capturing issues in the linguistic quality or naturalness of the text. CAP is publicly released to facilitate advanced research on hallucination detection, multilingual evaluation of LLMs, and the development of more reliable scientific NLP systems.
- Abstract(参考訳): 本稿では,学術テキスト生成における大規模言語モデル(LLM)の幻覚研究のための多言語リソースであるCAPデータセットを紹介する。
CAPは、幻覚が事実の知識を歪めてしまう科学領域に焦点を当てている。
しかし、この領域では、専門用語、統計的推論、文脈依存的な解釈の存在がこれらの歪みをさらに悪化させ、特に LLM の真の理解の欠如、文脈的理解の限定、表面レベルの一般化への偏見を考慮に入れている。
CAPは5つの高リソース言語(英語、フランス語、ヒンディー語、イタリア語、スペイン語)と4つの低リソース言語(ベンガル語、グジャラート語、マラヤラム語、テルグ語)をカバーしている。
このデータセットは900のキュレートされた科学的な質問と、トークンシーケンスとそれに対応するロジットと共に質問応答ペアとして提供される16の公開モデルから7000以上のLSM生成された回答で構成されている。
それぞれのインスタンスには、科学的幻覚の存在を示す二項のラベルが付記され、事実性エラーと表現され、テキストの言語的品質や自然性の問題をキャプチャする流布ラベルが付記される。
CAPは、幻覚の検出、LLMの多言語評価、より信頼性の高い科学的NLPシステムの開発に関する高度な研究を促進するために、一般公開されている。
関連論文リスト
- Large Language Models Hallucination: A Comprehensive Survey [3.8100688074986095]
大規模言語モデル(LLM)は自然言語処理を変革し、様々なタスクで優れたパフォーマンスを実現している。
派手な派手さは、しばしば幻覚(幻覚)として知られる偽情報や偽情報を生み出すコストが伴う。
この調査は、LSMにおける幻覚の研究を包括的にレビューし、原因、検出、緩和に焦点を当てている。
論文 参考訳(メタデータ) (2025-10-05T20:26:38Z) - How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild [22.24685025857759]
幻覚とは、大規模言語モデルが非現実的または不誠実な応答を生成する傾向である。
我々は多言語幻覚検出モデルを訓練し、30言語にわたる大規模な研究を行う。
その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
論文 参考訳(メタデータ) (2025-02-18T11:32:43Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。