論文の概要: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process
- arxiv url: http://arxiv.org/abs/2503.08569v1
- Date: Tue, 11 Mar 2025 15:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:45.123092
- Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process
- Title(参考訳): DeepReview: ヒューマンライクな深層思考プロセスによるLCMベースの論文レビューの改善
- Authors: Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang,
- Abstract要約: DeepReviewは、構造化分析、文献検索、エビデンスに基づく議論を取り入れて専門家レビュアーをエミュレートするように設計されたフレームワークである。
ベストモードでは、DeepReviewer-14BはGPT-o1とDeepSeek-R1に対して88.21%、80.20%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 30.710131188931317
- License:
- Abstract: Large Language Models (LLMs) are increasingly utilized in scientific research assessment, particularly in automated paper review. However, existing LLM-based review systems face significant challenges, including limited domain expertise, hallucinated reasoning, and a lack of structured evaluation. To address these limitations, we introduce DeepReview, a multi-stage framework designed to emulate expert reviewers by incorporating structured analysis, literature retrieval, and evidence-based argumentation. Using DeepReview-13K, a curated dataset with structured annotations, we train DeepReviewer-14B, which outperforms CycleReviewer-70B with fewer tokens. In its best mode, DeepReviewer-14B achieves win rates of 88.21\% and 80.20\% against GPT-o1 and DeepSeek-R1 in evaluations. Our work sets a new benchmark for LLM-based paper review, with all resources publicly available. The code, model, dataset and demo have be released in http://ai-researcher.net.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に自動論文レビューにおいて科学的研究アセスメントにますます活用されている。
しかし、既存のLLMベースのレビューシステムは、限られたドメインの専門知識、幻覚的推論、構造化された評価の欠如など、重大な課題に直面している。
この制限に対処するために,構造化解析,文献検索,エビデンスに基づく議論を取り入れた,専門家レビュアーをエミュレートする多段階フレームワークであるDeepReviewを紹介する。
構造化アノテーションを備えたキュレートデータセットであるDeepReviewer-13Kを使用して、より少ないトークンでCycleReviewer-70Bを上回ったDeepReviewer-14Bをトレーニングします。
ベストモードでは、DeepReviewer-14BはGPT-o1とDeepSeek-R1に対して88.21\%と80.20\%の勝利率を達成した。
我々の研究は、LLMベースの論文レビューのための新しいベンチマークを設定し、すべてのリソースが公開されています。
コード、モデル、データセット、デモはhttp://ai-researcher.net.comで公開されている。
関連論文リスト
- DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews [3.660182910533372]
OpenReviewerは、機械学習とAIカンファレンスの論文の高品質なピアレビューを生成するための、オープンソースのシステムである。
Llama-OpenReviewer-8Bは8Bパラメータ言語モデルで、トップカンファレンスから79,000人の専門家レビューに基づいて微調整されている。
論文 参考訳(メタデータ) (2024-12-16T16:31:00Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。