論文の概要: DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning
- arxiv url: http://arxiv.org/abs/2601.07611v1
- Date: Mon, 12 Jan 2026 14:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.474419
- Title: DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning
- Title(参考訳): DIAGPaper:マルチエージェント推論による科学論文の妥当性と特定弱さの診断
- Authors: Zhuoyang Zou, Abolfazl Ansari, Delvin Ce Zhang, Dongwon Lee, Wenpeng Yin,
- Abstract要約: 多くのマルチエージェントシステムは人の役割を表面レベルでシミュレートし、専門家が論文の補完的な知的側面を評価するための基本的な基準を欠いている。
ほとんどのシステムは、ユーザにとって最も適切な問題を優先順位付けするのではなく、非ランクの弱点リストを出力する。
3つの密に統合されたモジュールを通してこれらの課題に対処する新しいマルチエージェントフレームワークであるDIAGPaperを提案する。
- 参考スコア(独自算出の注目度): 17.049806985851994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paper weakness identification using single-agent or multi-agent LLMs has attracted increasing attention, yet existing approaches exhibit key limitations. Many multi-agent systems simulate human roles at a surface level, missing the underlying criteria that lead experts to assess complementary intellectual aspects of a paper. Moreover, prior methods implicitly assume identified weaknesses are valid, ignoring reviewer bias, misunderstanding, and the critical role of author rebuttals in validating review quality. Finally, most systems output unranked weakness lists, rather than prioritizing the most consequential issues for users. In this work, we propose DIAGPaper, a novel multi-agent framework that addresses these challenges through three tightly integrated modules. The customizer module simulates human-defined review criteria and instantiates multiple reviewer agents with criterion-specific expertise. The rebuttal module introduces author agents that engage in structured debate with reviewer agents to validate and refine proposed weaknesses. The prioritizer module learns from large-scale human review practices to assess the severity of validated weaknesses and surfaces the top-K severest ones to users. Experiments on two benchmarks, AAAR and ReviewCritique, demonstrate that DIAGPaper substantially outperforms existing methods by producing more valid and more paper-specific weaknesses, while presenting them in a user-oriented, prioritized manner.
- Abstract(参考訳): 単一エージェントまたはマルチエージェントLPMを用いた紙の弱点識別は注目度が高まっているが、既存のアプローチでは重要な制限がある。
多くのマルチエージェントシステムは人の役割を表面レベルでシミュレートし、専門家が論文の補完的な知的側面を評価するための基本的な基準を欠いている。
さらに、事前の手法は、識別された弱点が有効であると暗黙的に仮定し、レビューのバイアスや誤解を無視し、レビュー品質を検証する上での著者の反論の重要な役割を無視する。
最後に、ほとんどのシステムは、ユーザにとって最も適切な問題を優先順位付けするのではなく、非ランクの弱点リストを出力する。
本稿では,3つの密結合モジュールを通じてこれらの課題に対処する新しいマルチエージェントフレームワークであるDIAGPaperを提案する。
カスタマイズモジュールは、人間の定義したレビュー基準をシミュレートし、複数のレビューエージェントを基準固有の専門知識でインスタンス化する。
反論モジュールは、提案された弱点を検証および洗練するために、レビューエージェントと構造化された議論を行う著者エージェントを導入している。
優先順位付けモジュールは、大規模な人間レビューのプラクティスから学習し、検証された弱点の深刻さを評価し、トップKの深刻な脆弱性をユーザに提示する。
AAARとReviewCritiqueという2つのベンチマークの実験では、DIAGPaperは、より有効でより紙固有の弱点を生成しながら、ユーザ指向で優先順位付けされた方法で提示することで、既存のメソッドよりも大幅に優れています。
関連論文リスト
- Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies [16.537126902822127]
PRISMM-Benchは、科学論文において、実際のレビュアーがフラッグした不整合に基づいた最初のベンチマークである。
不整合同定、治療、ペアマッチングという3つのタスクを設計し、不整合の検出、修正、推論を行うモデルの能力を評価する。
我々は、大きなオープンウェイトモデル(GLM-4.5V 106B、InternVL3 78B)やプロプライエタリモデル(Gemini 2.5 Pro、GPT-5)を含む21のLMMをベンチマークした。
論文 参考訳(メタデータ) (2025-10-18T13:46:26Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Aspect-Guided Multi-Level Perturbation Analysis of Large Language Models in Automated Peer Review [36.05498398665352]
自動ピアレビューにおいて,大規模言語モデル(LLM)の堅牢性を評価するために,アスペクト誘導多段階摂動フレームワークを提案する。
我々のフレームワークは、ピアレビュープロセスペーパー、レビュー、そして、いくつかの品質面における反論の3つの重要な要素における摂動を探求する。
論文 参考訳(メタデータ) (2025-02-18T03:50:06Z) - DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。
フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。
エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-16T09:41:12Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。