論文の概要: ReviewGrounder: Improving Review Substantiveness with Rubric-Guided, Tool-Integrated Agents
- arxiv url: http://arxiv.org/abs/2604.14261v1
- Date: Wed, 15 Apr 2026 16:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.9538
- Title: ReviewGrounder: Improving Review Substantiveness with Rubric-Guided, Tool-Integrated Agents
- Title(参考訳): ReviewGrounder: Rubric-Guided, Tool-Integrated Agentsによるレビュー実体性の向上
- Authors: Zhuofeng Li, Yi Lu, Dongfu Jiang, Haoxiang Zhang, Yuyang Bai, Chuan Li, Yu Wang, Shuiwang Ji, Jianwen Xie, Yu Zhang,
- Abstract要約: 公式ガイドライン、論文の内容、人間によるレビューから派生した、紙固有のルーリックに従ってテキストをレビューする。
本稿では、公式ガイドライン、論文の内容、人手によるレビューに基づいて、レビューテキストを評価するベンチマークであるREVIEWBENCHを紹介する。
本稿では,レビューを起草段階と接地段階に分解するルーリック誘導ツール統合マルチエージェントフレームワークであるREVIEWGROUNDERを提案する。
- 参考スコア(独自算出の注目度): 50.27474750319121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise in AI conference submissions has driven increasing exploration of large language models (LLMs) for peer review support. However, LLM-based reviewers often generate superficial, formulaic comments lacking substantive, evidence-grounded feedback. We attribute this to the underutilization of two key components of human reviewing: explicit rubrics and contextual grounding in existing work. To address this, we introduce REVIEWBENCH, a benchmark evaluating review text according to paper-specific rubrics derived from official guidelines, the paper's content, and human-written reviews. We further propose REVIEWGROUNDER, a rubric-guided, tool-integrated multi-agent framework that decomposes reviewing into drafting and grounding stages, enriching shallow drafts via targeted evidence consolidation. Experiments on REVIEWBENCH show that REVIEWGROUNDER, using a Phi-4-14B-based drafter and a GPT-OSS-120B-based grounding stage, consistently outperforms baselines with substantially stronger/larger backbones (e.g., GPT-4.1 and DeepSeek-R1-670B) in both alignment with human judgments and rubric-based review quality across 8 dimensions. The code is available \href{https://github.com/EigenTom/ReviewGrounder}{here}.
- Abstract(参考訳): AIカンファレンスの提出が急速に増えているため、ピアレビューのサポートのため、大規模言語モデル(LLM)の探索が増加している。
しかし、LCMベースのレビュアーは、実質的で証拠に基づくフィードバックに欠ける表面的で公式なコメントをしばしば生成する。
これは、人間のレビューにおける2つの重要な要素である明示的なルーリックと、既存の作業における文脈的根拠の未活用によるものである。
そこで本稿では,公式ガイドライン,論文の内容,人手によるレビューに基づいて,レビューテキストを評価するベンチマークであるREVIEWBENCHを紹介する。
さらに,レビュワーを起草段階と接地段階に分解し,対象とするエビデンスを集約して浅いドラフトを充実させる,ルーリック誘導・ツール統合多エージェントフレームワークであるREVIEWGROUNDERを提案する。
REVIEWBENCHの実験によると、REVIEWGROUNDERはPhi-4-14BベースのドラフトとGPT-OSS-120Bベースのグラウンドを使用しており、人間の判断と8次元にわたるルーリックベースのレビュー品質の両面において、非常に強い/大きいバックボーン(例えば、GPT-4.1とDeepSeek-R1-670B)でベースラインを上回っている。
コードは \href{https://github.com/EigenTom/ReviewGrounder}{here} で入手できる。
関連論文リスト
- FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification [57.196748998757954]
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
論文 参考訳(メタデータ) (2026-04-05T11:45:22Z) - RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation [47.274230235946625]
多くのAI生成レビューは表面的で不十分な実行可能であり、著者は具体的で実装可能なガイダンスを残さず、この作業が抱えるギャップを動機付けている。
本稿では,行動可能なレビューフィードバック生成を目的としたRbtActを提案し,既存のピアレビューを学習の中心に配置する。
論文 参考訳(メタデータ) (2026-03-10T14:30:55Z) - Identifying Aspects in Peer Reviews [59.02879434536289]
我々は、ピアレビューのコーパスからアスペクトを抽出するデータ駆動スキーマを開発した。
我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-04-09T14:14:42Z) - DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process [30.710131188931317]
DeepReviewは、構造化分析、文献検索、エビデンスに基づく議論を取り入れて専門家レビュアーをエミュレートするように設計されたフレームワークである。
ベストモードでは、DeepReviewer-14BはGPT-o1とDeepSeek-R1に対して88.21%、80.20%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-03-11T15:59:43Z) - How Useful are Reviews for Recommendation? A Critical Review and
Potential Improvements [8.471274313213092]
本稿では,レビューテキストを用いてレコメンデーションシステムの改善を目指す,新たな作業体系について検討する。
実験条件やデータ前処理に変化はあるものの, 論文間で結果がコピーされていることから, 報告結果にいくつかの相違点がみられた。
さらなる調査では、リコメンデーションのためのユーザレビューの"重要"に関して、はるかに大きな問題に関する議論が求められている。
論文 参考訳(メタデータ) (2020-05-25T16:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。