論文の概要: FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification
- arxiv url: http://arxiv.org/abs/2604.04074v2
- Date: Tue, 07 Apr 2026 17:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 15:04:55.552732
- Title: FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification
- Title(参考訳): FactReview:Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification
- Authors: Hang Xu, Ling Yue, Chaoqian Ouyang, Yuchen Liu, Libin Zheng, Shaowu Pan, Shimin Di, Min-Ling Zhang,
- Abstract要約: 本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
- 参考スコア(独自算出の注目度): 57.196748998757954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.
- Abstract(参考訳): 機械学習におけるピアレビューは、提出量の増加とレビュアー時間の制限によるプレッシャーが増大している。
LLMベースのレビューシステムのほとんどは、原稿のみを読み、論文自身の物語からコメントを生成する。
これにより、アウトプットはプレゼンテーションの品質に敏感になり、レビューに必要な証拠が関連する作業やリリースコードにある場合に弱くなる。
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは、提出された投稿によって、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能になったら、中央実証的なクレームをテストするために、制限付き予算の下でリリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
CompGCN のケーススタディでは、FactReview はリンク予測やノード分類と密接に一致した結果を再現しているが、MUTAG グラフ分類では、再現結果は 88.4% であり、論文で報告された最強のベースラインは92.6% である。
そのため、この主張は部分的にしか支持されていない。
より広い範囲において、このケースは、AIが最終的な意思決定者ではなく、証拠を集め、レビュアーがより証拠に基づいて評価を行うのを助けるツールとしてピアレビューにおいて最も有用であることを示唆している。
コードはhttps://github.com/DEFENSE-SEU/Review-Assistantで公開されている。
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - RIGOURATE: Quantifying Scientific Exaggeration with Evidence-Aligned Claim Evaluation [29.44948404858214]
RIGOURATEは、紙の本体から証拠を回収し、各クレームにオーバーステートメントスコアを割り当てる。
このフレームワークは、ICLRとNeurIPSの論文から10K以上のクレームエビデンスセットのデータセットで構成されている。
論文 参考訳(メタデータ) (2026-01-07T19:36:08Z) - Incremental Extractive Opinion Summarization Using Cover Trees [81.59625423421355]
オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、意見要約を定期的に更新する必要がある。
本研究では,漸進的な環境下での抽出的意見要約の課題について検討する。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - When Reviewers Lock Horn: Finding Disagreement in Scientific Peer
Reviews [24.875901048855077]
本稿では,ある記事のレビュアー間での矛盾を自動的に識別する新しいタスクを紹介する。
我々の知識を最大限に活用するために、ピアレビュアー間での意見の不一致を自動的に識別する最初の試みを行う。
論文 参考訳(メタデータ) (2023-10-28T11:57:51Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Assessing Effectiveness of Using Internal Signals for Check-Worthy Claim
Identification in Unlabeled Data for Automated Fact-Checking [6.193231258199234]
本稿では,偽ニュース記事からチェック価値のあるクレーム文を特定する手法について検討する。
我々は2つの内部監督信号(見出しと抽象的な要約)を利用して文をランク付けする。
見出しは、ファクトチェックのWebサイトがクレームを記述する方法とよく似ているが、要約ベースのパイプラインは、エンドツーエンドのファクトチェックシステムにとって最も有望である。
論文 参考訳(メタデータ) (2021-11-02T16:17:20Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。