論文の概要: Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers
- arxiv url: http://arxiv.org/abs/2604.01128v1
- Date: Wed, 01 Apr 2026 16:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.097981
- Title: Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers
- Title(参考訳): 論文再構成評価:AIによる論文の提示と幻覚の評価
- Authors: Atsuyuki Miyai, Mashiro Toyooka, Zaiying Zhao, Kenta Watanabe, Toshihiko Yamasaki, Kiyoharu Aizawa,
- Abstract要約: 本稿では,現代のコーディングエージェントによって書かれた論文の品質とリスクを定量化するための,最初の体系的評価フレームワークを紹介する。
PaperReconは、AIで書かれた論文の評価を、プレゼンテーションと幻覚の2つの次元に分割する。
評価のために,2025年以降に出版された多種多様なドメインを対象とした51の論文をベンチマークしたPaperWrite-Benchを紹介する。
- 参考スコア(独自算出の注目度): 41.637398542914816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the first systematic evaluation framework for quantifying the quality and risks of papers written by modern coding agents. While AI-driven paper writing has become a growing concern, rigorous evaluation of the quality and potential risks of AI-written papers remains limited, and a unified understanding of their reliability is still lacking. We introduce Paper Reconstruction Evaluation (PaperRecon), an evaluation framework in which an overview (overview.md) is created from an existing paper, after which an agent generates a full paper based on the overview and minimal additional resources, and the result is subsequently compared against the original paper. PaperRecon disentangles the evaluation of the AI-written papers into two orthogonal dimensions, Presentation and Hallucination, where Presentation is evaluated using a rubric and Hallucination is assessed via agentic evaluation grounded in the original paper source. For evaluation, we introduce PaperWrite-Bench, a benchmark of 51 papers from top-tier venues across diverse domains published after 2025. Our experiments reveal a clear trade-off: while both ClaudeCode and Codex improve with model advances, ClaudeCode achieves higher presentation quality at the cost of more than 10 hallucinations per paper on average, whereas Codex produces fewer hallucinations but lower presentation quality. This work takes a first step toward establishing evaluation frameworks for AI-driven paper writing and improving the understanding of its risks within the research community.
- Abstract(参考訳): 本稿では,現代のコーディングエージェントによって書かれた論文の品質とリスクを定量化するための,最初の体系的評価フレームワークを紹介する。
AI駆動の論文執筆は懸念が高まりつつあるが、AIによる論文の品質と潜在的なリスクの厳密な評価は依然として限られており、信頼性の統一された理解はいまだに不足している。
本稿では、既存の論文から概要(オーバービュー.md)を作成する評価フレームワークであるPaperReconを紹介し、その後、エージェントが概要と最小限の追加リソースに基づいてフルペーパーを生成し、その結果を元の論文と比較する。
PaperReconは、AIで書かれた論文の評価を2つの直交次元、プレゼンテーションと幻覚に切り離し、プレゼンテーションはルーリックを用いて評価され、幻覚は元の論文に根ざしたエージェント的評価によって評価される。
評価のために,2025年以降に出版された多種多様なドメインを対象とした51の論文をベンチマークしたPaperWrite-Benchを紹介する。
ClaudeCode と Codex はいずれもモデルの改良によって改善されているが,ClaudeCode は1紙あたり 10 以上の幻覚のコストで,より高いプレゼンテーション品質を実現している。
この研究は、AI駆動の論文作成のための評価フレームワークを確立するための第一歩を踏み出し、研究コミュニティにおけるリスクの理解を改善します。
関連論文リスト
- NoveltyAgent: Autonomous Novelty Reporting Agent with Point-wise Novelty Analysis and Self-Validation [34.18769961207746]
包括的で忠実なノベルティレポートを生成するために設計されたマルチエージェントシステムであるNovetyAgentを紹介する。
写本を細かな検索と比較のために離散的な新規点に分解し、総合的な関連論文データベースを構築する。
実験の結果、NovetyAgentは最先端のパフォーマンスを達成し、GPT-5 DeepResearchを10.15%上回った。
論文 参考訳(メタデータ) (2026-03-21T17:19:11Z) - What Papers Don't Tell You: Recovering Tacit Knowledge for Automated Paper Reproduction [57.86097956633207]
Methodは、学術論文から実行可能なコードを生成するグラフベースのエージェントフレームワークである。
3つのドメイン、10のタスク、10の最近の論文にまたがる拡張ReproduceBenchでは、公式実装に対する平均的なパフォーマンスギャップが10.04%に達する。
論文 参考訳(メタデータ) (2026-03-02T12:33:31Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Reflective Paper-to-Code Reproduction Enabled by Fine-Grained Verification [46.845133190560375]
複雑なコードを効率的にデバッグするために、人間が体系的なチェックリストを使う方法に触発されて、textbfReflective Paper-to-Code textbfReproductionフレームワークである textbfReProを提案する。
紙の指紋を自動的に抽出し、高品質な監視信号として機能する、正確で原子的な基準の包括的なセットを参照する。
ベースラインよりも13.0%のパフォーマンスギャップを達成し、反射の複雑な論理的および数学的基準を正しく修正する。
論文 参考訳(メタデータ) (2025-08-21T06:57:44Z) - Navigating Through Paper Flood: Advancing LLM-based Paper Evaluation through Domain-Aware Retrieval and Latent Reasoning [30.92327406304362]
大規模言語モデル(LLM)を用いた論文自動評価のための新しいフレームワークPaperEvalを提案する。
PaperEvalには,1)新規性とコントリビューションの文脈的評価を支援するために,関連業務を検索するドメイン対応紙検索モジュール,2)複雑なモチベーションと方法論の深い理解を可能にする潜時推論機構,の2つの重要な要素がある。
2つのデータセットの実験により、PaperEvalは、学術的影響と紙の品質評価の両方において、既存の手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-08-07T08:08:13Z) - PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (2025-04-02T15:55:24Z) - Eliciting Honest Information From Authors Using Sequential Review [13.424398627546788]
本稿では,著者からランキング情報を真に引き出すための逐次レビュー機構を提案する。
鍵となる考え方は、提供されたランキングに基づいて著者の論文をシーケンスでレビューし、前の論文のレビュースコアについて次の論文のレビューを条件付けることである。
論文 参考訳(メタデータ) (2023-11-24T17:27:39Z) - CausalCite: A Causal Formulation of Paper Citations [80.82622421055734]
CausalCiteは紙の意義を測定するための新しい方法だ。
これは、従来のマッチングフレームワークを高次元のテキスト埋め込みに適応させる、新しい因果推論手法であるTextMatchに基づいている。
科学専門家が報告した紙衝撃と高い相関性など,各種基準におけるCausalCiteの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-05T23:09:39Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。