論文の概要: PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review
- arxiv url: http://arxiv.org/abs/2601.19916v1
- Date: Wed, 07 Jan 2026 04:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.53252
- Title: PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review
- Title(参考訳): PaperAudit-Bench: クリティカル自動ピアレビューのための研究論文におけるベンチマークエラー検出
- Authors: Songjun Tu, Yiwen Ma, Jiahao Lin, Qichao Zhang, Xiangyuan Lan, Junfeng. Li, Nan Xu, Linjing Li, Dongbin Zhao,
- Abstract要約: 本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
- 参考スコア(独自算出の注目度): 54.141490756509306
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models can generate fluent peer reviews, yet their assessments often lack sufficient critical rigor when substantive issues are subtle and distributed across a paper. In this paper, we introduce PaperAudit-Bench, which consists of two components: (1) PaperAudit-Dataset, an error dataset covering both errors identifiable within individual sections and those requiring cross-section reasoning, designed for controlled evaluation under long-context settings; and (2) PaperAudit-Review, an automated review framework that integrates structured error detection with evidence-aware review generation to support critical assessment. Experiments on PaperAudit-Bench reveal large variability in error detectability across models and detection depths, highlighting the difficulty of identifying such errors under long-context settings. Relative to representative automated reviewing baselines, incorporating explicit error detection into the review workflow produces systematically stricter and more discriminative evaluations, demonstrating its suitability for peer review. Finally, we show that the dataset supports training lightweight LLM detectors via SFT and RL, enabling effective error detection at reduced computational cost.
- Abstract(参考訳): 大規模な言語モデルは、流動的なピアレビューを生成することができるが、それらの評価は、実質的な問題が微妙に紙に分散されているときに、十分な批判的な厳密さを欠くことが多い。
本稿では,(1)個々のセクション内で特定可能なエラーデータセットであるPaperAudit-Datasetと,長いコンテキスト設定下での制御評価のために設計されたクロスセクション推論を必要とするPaperAudit-Benchと,(2)構造化エラー検出とエビデンス・アウェア・レビュー生成を統合した自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントについて紹介する。
PaperAudit-Benchの実験では、モデルと検出深度にまたがるエラー検出可能性に大きなばらつきが見られ、長いコンテキスト設定下でそのようなエラーを特定することの難しさが浮き彫りにされている。
レビューワークフローに明示的なエラー検出を組み込んだ自動レビューベースラインに対して、体系的に厳格で差別的な評価が行われ、ピアレビューに適していることが示される。
最後に,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
関連論文リスト
- AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context [10.769682566098695]
AACR-Benchは、複数のプログラミング言語にまたがる完全なクロスファイルコンテキストを提供する包括的なベンチマークである。
従来のデータセットとは異なり、AACR-Benchは潜伏する欠陥を明らかにするために"AIアシスト、エキスパート検証"のアノテーションパイプラインを使用している。
論文 参考訳(メタデータ) (2026-01-27T11:28:44Z) - DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM [35.910677096654574]
文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
本稿では,文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを紹介する。
論文 参考訳(メタデータ) (2025-12-11T13:16:33Z) - FLAWS: A Benchmark for Error Identification and Localization in Scientific Papers [10.04850395402571]
エラーの特定とローカライゼーションは、ピアレビューにおける中核的なタスクである。
大規模言語モデル(LLM)の最近の進歩は、そのような評価タスクをサポートする可能性への関心を喚起している。
レビューシステムにおけるLSMの利用が増加しているにもかかわらず、エラーを特定できる能力はいまだに未調査のままである。
論文 参考訳(メタデータ) (2025-11-26T19:19:44Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。