論文の概要: ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error Annotations
- arxiv url: http://arxiv.org/abs/2509.25868v2
- Date: Wed, 01 Oct 2025 04:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.834764
- Title: ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error Annotations
- Title(参考訳): ReFACT: 位置誤りアノテーションを用いた科学的衝突検出のためのベンチマーク
- Authors: Yindong Wang, Martin Preiß, Margarita Bugueño, Jan Vincent Hoffbauer, Abdullatif Ghajar, Tolga Buz, Gerard de Melo,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば科学的事実を議論し、その信頼性を著しく損なう。
多様な科学的領域にまたがる1,001名の専門家による質問応答対のベンチマークであるReFACTを紹介する。
それぞれのインスタンスには、科学的に正しい答えと、正確なエラースパンとエラータイプで注釈付けされた非実例の両方が含まれている。
- 参考スコア(独自算出の注目度): 14.392598503431321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) frequently confabulate scientific facts, severely undermining their trustworthiness. Addressing this challenge requires benchmarks that go beyond binary factuality and enable fine-grained evaluation. We introduce ReFACT (Reddit False And Correct Texts), a benchmark of 1,001 expert-annotated question-answer pairs spanning diverse scientific domains for the detection of scientific confabulation. Each instance includes both a scientifically correct answer and a non-factual counterpart annotated with precise error spans and error types. ReFACT enables multi-stage evaluation: (1) confabulation detection, (2) fine-grained error localization, and (3) correction. We benchmark 9 state-of-the-art LLMs, revealing limited performance (about 50 percent accuracy). Even top models such as GPT-4o fail to distinguish factual from confabulated scientific answers, raising concerns about the reliability of LLM-as-judge evaluation paradigms. Our findings highlight the need for fine-grained, human-validated benchmarks to detect and correct scientific confabulation in domain-specific contexts. The dataset is available at: https://github.com/ddz5431/ReFACT
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば科学的事実を議論し、その信頼性を著しく損なう。
この課題に対処するには、バイナリの事実性を超えて、きめ細かい評価を可能にするベンチマークが必要である。
ReFACT(Reddit False And Correct Texts)は, さまざまな科学的領域にまたがる, 1,001 名の専門家による質問応答対のベンチマークである。
それぞれのインスタンスには、科学的に正しい答えと、正確なエラースパンとエラータイプで注釈付けされた非実例の両方が含まれている。
ReFACT は,(1) 衝突検出,(2) きめ細かい誤差の局所化,(3) 補正などの多段階評価を可能にする。
我々は9つの最先端のLCMをベンチマークし、限られた性能(約50%の精度)を明らかにした。
GPT-4oのようなトップモデルでさえ、事実と議論された科学的回答を区別できず、LCM-as-judge評価パラダイムの信頼性に関する懸念を提起している。
我々の研究は、ドメイン固有の文脈における科学的折り畳みの検出と修正のための、きめ細かい人為的なベンチマークの必要性を浮き彫りにしている。
データセットは https://github.com/ddz5431/ReFACT
関連論文リスト
- Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking [11.300523252168327]
Evtextsuperscript2Rは、基準ベースの評価と検証レベルのプロキシスコアの長所を組み合わせる。
Evtextsuperscript2Rは、精度と堅牢性において既存のスコアリング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-11-08T07:05:06Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。