Fugu-MT 論文翻訳(概要): DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation

論文の概要: DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation

arxiv url: http://arxiv.org/abs/2605.27710v1
Date: Tue, 26 May 2026 21:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.556393
Title: DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation
Title（参考訳）: DeepSciVerify: LLMによるエビデンスエスカレーションによる科学的主張の検証--Citation Alignment
Authors: Shaghayegh Sadeghi, Khashayar Khajavi, Rise Adhikari, Alexander Tessier,
Abstract要約: 本稿では,科学的クレーム引用検証のための2段階パイプラインであるDeepSciVerifyを紹介する。このシステムはまず, 要約を用いてクレームを検証し, 必要な場合にのみ全文を検索, 解析する。
参考スコア（独自算出の注目度）: 39.146761527401424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Misalignment between claims and their cited evidence is a common failure mode in reports generated by large language models, limiting their reliability in scientific and other high-stakes settings. We present DeepSciVerify, a two-stage pipeline for scientific claim-citation verification that combines abstract-level reasoning with selective escalation to passage-level evidence. The system first verifies claims using the abstract and defers uncertain cases, retrieving and analyzing full-text passages only when necessary. This design leverages complementary behaviors across LLMs, as some models are more conservative while others are more decisive under uncertainty. On the SCitance benchmark, DeepSciVerify achieves 86.7 Micro-F1, outperforming strong abstract-only baselines by +4.5 points while resolving 67% of instances without full-text retrieval. These results suggest that selective evidence escalation improves both accuracy and efficiency in claim-citation verification.
Abstract（参考訳）: クレームと引用された証拠の相違は、大きな言語モデルによって生成されたレポートにおいて共通の失敗モードであり、科学的およびその他の高い評価条件における信頼性を制限している。 DeepSciVerifyは,抽象レベルの推論と選択的エスカレーションを組み合わせた,科学的なクレーム引用検証のための2段階パイプラインである。このシステムはまず, 要約を用いてクレームを検証し, 必要な場合にのみ全文を検索, 解析する。この設計はLLM間の相補的な挙動を利用するが、一部のモデルはより保守的であり、他のモデルは不確実性の下でより決定的である。 SCitanceベンチマークでは、DeepSciVerifyは86.7 Micro-F1を達成した。これらの結果から,選択的エスカレーションはクレーム引用検証の精度と効率を向上させることが示唆された。

関連論文リスト

FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification [57.196748998757954]
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。 FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
論文参考訳（メタデータ） (2026-04-05T11:45:22Z)
CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文参考訳（メタデータ） (2026-02-26T19:17:39Z)
The Alignment Bottleneck in Decomposition-Based Claim Verification [17.197804072440665]
我々は、時間的拘束力のある証拠と人間による注釈付きサブステートメント証拠を含む、現実世界の複雑なクレームのデータセットを新たに導入する。サブステートアラインド・アライメント・エビデンス(SAE)と繰り返しクライム・レベル・エビデンス(SRE)という2つのアライメント・アライメント・セットアップの下での分解を評価する。以上の結果から,エビデンスがきめ細やかで厳密に整合している場合にのみ,分解が大幅な性能向上をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2026-02-11T00:02:16Z)
RIGOURATE: Quantifying Scientific Exaggeration with Evidence-Aligned Claim Evaluation [29.44948404858214]
RIGOURATEは、紙の本体から証拠を回収し、各クレームにオーバーステートメントスコアを割り当てる。このフレームワークは、ICLRとNeurIPSの論文から10K以上のクレームエビデンスセットのデータセットで構成されている。
論文参考訳（メタデータ） (2026-01-07T19:36:08Z)
CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。 CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文参考訳（メタデータ） (2025-04-21T07:20:31Z)
Read it Twice: Towards Faithfully Interpretable Fact Verification by Revisiting Evidence [59.81749318292707]
本稿では,証拠の検索とクレームの検証を行うためにReReadという名前の事実検証モデルを提案する。提案システムは,異なる設定下での最良のレポートモデルに対して,大幅な改善を実現することができる。
論文参考訳（メタデータ） (2023-05-02T03:23:14Z)
AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文参考訳（メタデータ） (2021-04-01T17:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。