論文の概要: DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review
- arxiv url: http://arxiv.org/abs/2604.09590v1
- Date: Tue, 03 Mar 2026 09:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.525331
- Title: DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review
- Title(参考訳): DeepReviewer 2.0: 科学的ピアレビューのためのトレース可能なエージェントシステム
- Authors: Yixuan Weng, Minjun Zhu, Qiujie Xie, Zhiyuan Ning, Shichen Li, Panzhong Lu, Zhen Lin, Enhao Gu, Qiyao Sun, Yue Zhang,
- Abstract要約: DeepReviewer2.0は、出力契約を中心に構築されたプロセス制御エージェントレビューシステムである。
134 ICLR2025は3つの固定されたプロトコルの下で提出され、DeepReviewer2.0を実行する196BモデルはGemini-3.1-Pro-previewより優れている。
- 参考スコア(独自算出の注目度): 22.737940168374546
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated peer review is often framed as generating fluent critique, yet reviewers and area chairs need judgments they can \emph{audit}: where a concern applies, what evidence supports it, and what concrete follow-up is required. DeepReviewer~2.0 is a process-controlled agentic review system built around an output contract: it produces a \textbf{traceable review package} with anchored annotations, localized evidence, and executable follow-up actions, and it exports only after meeting minimum traceability and coverage budgets. Concretely, it first builds a manuscript-only claim--evidence--risk ledger and verification agenda, then performs agenda-driven retrieval and writes anchored critiques under an export gate. On 134 ICLR~2025 submissions under three fixed protocols, an \emph{un-finetuned 196B} model running DeepReviewer~2.0 outperforms Gemini-3.1-Pro-preview, improving strict major-issue coverage (37.26\% vs.\ 23.57\%) and winning 71.63\% of micro-averaged blind comparisons against a human review committee, while ranking first among automatic systems in our pool. We position DeepReviewer~2.0 as an assistive tool rather than a decision proxy, and note remaining gaps such as ethics-sensitive checks.
- Abstract(参考訳): 自動化されたピアレビューは、しばしば、流動的な批判を生み出すものとして構成されるが、レビュアーとエリアチェアは、それが適用可能な判断を必要とする: 懸念が適用される場所、それを支持する証拠、具体的なフォローアップが必要である。
DeepReviewer~2.0は、出力コントラクトを中心に構築されたプロセス制御のエージェントレビューシステムである。最小トレーサビリティとカバレッジ予算を満たした後にのみエクスポートされる、アンカー付きアノテーション、ローカライズドエビデンス、実行中のフォローアップアクションを備えた、‘textbf{traceable Review package’を生成する。
具体的には、まず、原稿のみのクレーム-エビデンス-リスク台帳と検証アジェンダを構築し、次にアジェンダ駆動による検索を実行し、輸出ゲートの下でアンカー付き批評を書く。
134 ICLR~2025では、DeepReviewer~2.0で実行する \emph{un-finetuned 196B} モデルが Gemini-3.1-Pro-preview を上回り、厳格な主要な問題カバレッジ(37.26\%)が向上した。
23.57\%)と71.63\%のマイクロ平均ブラインド比較を人事審査委員会と比較し、プール内の自動システムの中では第1位にランクインした。
我々はDeepReviewer~2.0を意思決定プロキシではなく補助ツールとして位置づけ、倫理に敏感なチェックのような残るギャップに注意する。
関連論文リスト
- ReviewGrounder: Improving Review Substantiveness with Rubric-Guided, Tool-Integrated Agents [50.27474750319121]
公式ガイドライン、論文の内容、人間によるレビューから派生した、紙固有のルーリックに従ってテキストをレビューする。
本稿では、公式ガイドライン、論文の内容、人手によるレビューに基づいて、レビューテキストを評価するベンチマークであるREVIEWBENCHを紹介する。
本稿では,レビューを起草段階と接地段階に分解するルーリック誘導ツール統合マルチエージェントフレームワークであるREVIEWGROUNDERを提案する。
論文 参考訳(メタデータ) (2026-04-15T16:33:04Z) - FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification [57.196748998757954]
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
論文 参考訳(メタデータ) (2026-04-05T11:45:22Z) - BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol [7.765950922513099]
推論プロトコルは内部の審議を組織するが、自己修正を誘発する外部質問の明確なメカニズムは欠如している。
For-Promptingは、デフェンダーが回答を提案し、Objectionerが直接修正せずに質問スタイルの異議を提起し、Hostが一貫性とクロージャを強制する非対称なプロトコルである。
GSM8Kでは、単一プロンプトよりも約22%のポイントゲインとCoTと同等の精度を示し、一様GPT 4.1判事の推論とコヒーレンスにおいて10%以上の高い評価を得た。
論文 参考訳(メタデータ) (2025-10-02T04:57:58Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Re$^2$: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions [2.5226834810382113]
一貫性に保証された最大のピアレビューと、Re2というリビューデータセットを紹介します。
このデータセットは、最初の投稿19,926件、レビューコメント70,668件、OpenReviewに関する24のカンファレンスと21のワークショップからの53,818件からなる。
論文 参考訳(メタデータ) (2025-05-12T16:02:52Z) - Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking [11.300523252168327]
Evtextsuperscript2Rは、基準ベースの評価と検証レベルのプロキシスコアの長所を組み合わせる。
Evtextsuperscript2Rは、精度と堅牢性において既存のスコアリング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-11-08T07:05:06Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。