論文の概要: ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error Annotations
- arxiv url: http://arxiv.org/abs/2509.25868v2
- Date: Wed, 01 Oct 2025 04:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.834764
- Title: ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error Annotations
- Title(参考訳): ReFACT: 位置誤りアノテーションを用いた科学的衝突検出のためのベンチマーク
- Authors: Yindong Wang, Martin Preiß, Margarita Bugueño, Jan Vincent Hoffbauer, Abdullatif Ghajar, Tolga Buz, Gerard de Melo,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば科学的事実を議論し、その信頼性を著しく損なう。
多様な科学的領域にまたがる1,001名の専門家による質問応答対のベンチマークであるReFACTを紹介する。
それぞれのインスタンスには、科学的に正しい答えと、正確なエラースパンとエラータイプで注釈付けされた非実例の両方が含まれている。
- 参考スコア(独自算出の注目度): 14.392598503431321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) frequently confabulate scientific facts, severely undermining their trustworthiness. Addressing this challenge requires benchmarks that go beyond binary factuality and enable fine-grained evaluation. We introduce ReFACT (Reddit False And Correct Texts), a benchmark of 1,001 expert-annotated question-answer pairs spanning diverse scientific domains for the detection of scientific confabulation. Each instance includes both a scientifically correct answer and a non-factual counterpart annotated with precise error spans and error types. ReFACT enables multi-stage evaluation: (1) confabulation detection, (2) fine-grained error localization, and (3) correction. We benchmark 9 state-of-the-art LLMs, revealing limited performance (about 50 percent accuracy). Even top models such as GPT-4o fail to distinguish factual from confabulated scientific answers, raising concerns about the reliability of LLM-as-judge evaluation paradigms. Our findings highlight the need for fine-grained, human-validated benchmarks to detect and correct scientific confabulation in domain-specific contexts. The dataset is available at: https://github.com/ddz5431/ReFACT
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば科学的事実を議論し、その信頼性を著しく損なう。
この課題に対処するには、バイナリの事実性を超えて、きめ細かい評価を可能にするベンチマークが必要である。
ReFACT(Reddit False And Correct Texts)は, さまざまな科学的領域にまたがる, 1,001 名の専門家による質問応答対のベンチマークである。
それぞれのインスタンスには、科学的に正しい答えと、正確なエラースパンとエラータイプで注釈付けされた非実例の両方が含まれている。
ReFACT は,(1) 衝突検出,(2) きめ細かい誤差の局所化,(3) 補正などの多段階評価を可能にする。
我々は9つの最先端のLCMをベンチマークし、限られた性能(約50%の精度)を明らかにした。
GPT-4oのようなトップモデルでさえ、事実と議論された科学的回答を区別できず、LCM-as-judge評価パラダイムの信頼性に関する懸念を提起している。
我々の研究は、ドメイン固有の文脈における科学的折り畳みの検出と修正のための、きめ細かい人為的なベンチマークの必要性を浮き彫りにしている。
データセットは https://github.com/ddz5431/ReFACT
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - Knowing When Not to Answer: Abstention-Aware Scientific Reasoning [2.680633756465714]
科学的条件下では、支持または不確実な結論は、棄権するよりも有害である。
本稿では,この問題に対して,留意点を考慮した検証フレームワークを用いて検討する。
我々はこのフレームワークをSciFactとPubMedQAの2つの科学的ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-02-15T15:29:43Z) - SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - FLAWS: A Benchmark for Error Identification and Localization in Scientific Papers [10.04850395402571]
エラーの特定とローカライゼーションは、ピアレビューにおける中核的なタスクである。
大規模言語モデル(LLM)の最近の進歩は、そのような評価タスクをサポートする可能性への関心を喚起している。
レビューシステムにおけるLSMの利用が増加しているにもかかわらず、エラーを特定できる能力はいまだに未調査のままである。
論文 参考訳(メタデータ) (2025-11-26T19:19:44Z) - Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs [16.173245551933178]
コンテキストグラウンドド・幻覚(Context-grounded hallucination)は、モデル出力がソーステキストに対して検証できない情報を含む場合である。
このような幻覚を局在化するためのLCMの適用性について検討する。
論文 参考訳(メタデータ) (2025-09-26T17:03:24Z) - Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking [11.300523252168327]
Evtextsuperscript2Rは、基準ベースの評価と検証レベルのプロキシスコアの長所を組み合わせる。
Evtextsuperscript2Rは、精度と堅牢性において既存のスコアリング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-11-08T07:05:06Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。