論文の概要: EGTR-Review: Efficient Evidence-Grounded Scientific Peer Review Generation via Multi-Agent Teacher Distillation
- arxiv url: http://arxiv.org/abs/2606.06025v1
- Date: Thu, 04 Jun 2026 11:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.746849
- Title: EGTR-Review: Efficient Evidence-Grounded Scientific Peer Review Generation via Multi-Agent Teacher Distillation
- Title(参考訳): EGTR-Review: マルチエージェント教師蒸留による効率的な科学的ピアレビュー生成
- Authors: Xinpeng Qiu, Wang Yihu, Zhifeng Liu, Xiaochen Wang, Jimin Wang,
- Abstract要約: EGTR-ReviewはEvidence-Grounded and Traceable Review Generationフレームワークである。
私たちのコード、プロンプト、設定、サンプルデータはGitHubで入手可能です。
- 参考スコア(独自算出の注目度): 5.917645474179334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific peer review generation has attracted increasing attention for reducing reviewing burdens and providing timely feedback. However, existing Large Language Model (LLM)-based methods often produce generic comments with insufficient evidence support and weak source traceability, while complex multi-agent systems incur high inference costs. To address these challenges, we propose EGTR-Review, an Evidence-Grounded and Traceable Review Generation framework via Multi-Agent Teacher Distillation. EGTR-Review first constructs a multi-agent teacher that performs structure-aware paper decomposition, key-element extraction, external scholarly evidence retrieval, evidence-state labeling, verification reasoning, and review synthesis. It then distills both intermediate reasoning trajectories and final review comments into a lightweight student model through task-prefix-driven multi-task learning. An evidence-weighted objective further reduces the influence of weak, missing, or non-verifiable supervision. Experiments on public peer-review datasets show that EGTR-Review (Student) outperforms strong prompt-based, fine-tuned, and structured/agentic baselines across automatic metrics, LLM-as-Judge evaluation, and human evaluation, while maintaining strong factual grounding and source traceability with substantially lower token consumption and inference time. Our code, prompts, configurations, and sample data are available on GitHub.
- Abstract(参考訳): 科学的なピアレビュー生成は、レビューの負担を減らし、タイムリーなフィードバックを提供するために注目を集めている。
しかし、既存のLarge Language Model (LLM) ベースの手法は、証拠の不十分なサポートとソーストレーサビリティの弱い一般的なコメントを生成するが、複雑なマルチエージェントシステムでは高い推論コストが発生する。
これらの課題に対処するため,マルチエージェント・教師蒸留によるエビデンス・グラウンドド・トレーサブル・レビュー・ジェネレーション・フレームワークEGTR-Reviewを提案する。
EGTR-Reviewは、まず、構造認識紙の分解、キー要素抽出、外部の学術的証拠検索、エビデンス状態のラベル付け、検証推論、レビュー合成を行うマルチエージェントの教師を構築する。
次に、中間的推論軌跡と最終レビューコメントの両方を、タスク前修正によるマルチタスク学習を通じて、軽量な学生モデルに蒸留する。
証拠を重み付けした目的は、弱さ、欠如、あるいは検証不可能な監督の影響をさらに減らす。
公開ピアレビューデータセットの実験では、EGTR-Review(Student)は、トークンの消費と推論時間を大幅に低くしながら、強力な事実的根拠とソーストレーサビリティを維持しながら、自動メトリクス、LCM-as-Judge評価、人的評価などにわたって、強力なプロンプトベース、微調整、構造化された/付加的なベースラインを上回ります。
私たちのコード、プロンプト、設定、サンプルデータはGitHubで入手可能です。
関連論文リスト
- When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文 参考訳(メタデータ) (2026-04-26T08:03:32Z) - ReviewGrounder: Improving Review Substantiveness with Rubric-Guided, Tool-Integrated Agents [50.27474750319121]
公式ガイドライン、論文の内容、人間によるレビューから派生した、紙固有のルーリックに従ってテキストをレビューする。
本稿では、公式ガイドライン、論文の内容、人手によるレビューに基づいて、レビューテキストを評価するベンチマークであるREVIEWBENCHを紹介する。
本稿では,レビューを起草段階と接地段階に分解するルーリック誘導ツール統合マルチエージェントフレームワークであるREVIEWGROUNDERを提案する。
論文 参考訳(メタデータ) (2026-04-15T16:33:04Z) - FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification [57.196748998757954]
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
論文 参考訳(メタデータ) (2026-04-05T11:45:22Z) - ReviewGuard: Enhancing Deficient Peer Review Detection via LLM-Driven Data Augmentation [3.9199635838637072]
ReviewGuardは、欠陥レビューを検出して分類する自動化システムである。
最終コーパスは6,634枚、実際のレビュー24,657枚、合成レビュー46,438枚である。
不十分なレビューでは、評価スコアの低下、自己報告の信頼性の向上、構造的な複雑さの低減、ネガティブな感情の比率の向上が示されています。
論文 参考訳(メタデータ) (2025-10-18T15:45:26Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [24.566487721847597]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z) - Generative Adversarial Reviews: When LLMs Become the Critic [1.2430809884830318]
本稿では,LLMを利用したエージェントを利用して,忠実なピアレビュアーをシミュレートするジェネレーティブエージェントレビュアー(GAR)を紹介する。
このアプローチの中心は、グラフベースの原稿表現であり、コンテンツを凝縮し、情報を論理的に整理する。
本実験は,GARが人間レビュアーに対して,詳細なフィードバックと論文結果の予測を行う上で,相容れない性能を示すことを示した。
論文 参考訳(メタデータ) (2024-12-09T06:58:17Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。