論文の概要: OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews
- arxiv url: http://arxiv.org/abs/2412.11948v3
- Date: Tue, 18 Mar 2025 08:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:10.748196
- Title: OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews
- Title(参考訳): OpenReviewer: 批判的な論文レビューを生成するための特別な大規模言語モデル
- Authors: Maximilian Idahl, Zahra Ahmadi,
- Abstract要約: OpenReviewerは、機械学習とAIカンファレンスの論文の高品質なピアレビューを生成するための、オープンソースのシステムである。
Llama-OpenReviewer-8Bは8Bパラメータ言語モデルで、トップカンファレンスから79,000人の専門家レビューに基づいて微調整されている。
- 参考スコア(独自算出の注目度): 3.660182910533372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present OpenReviewer, an open-source system for generating high-quality peer reviews of machine learning and AI conference papers. At its core is Llama-OpenReviewer-8B, an 8B parameter language model specifically fine-tuned on 79,000 expert reviews from top conferences. Given a PDF paper submission and review template as input, OpenReviewer extracts the full text, including technical content like equations and tables, and generates a structured review following conference-specific guidelines. Our evaluation on 400 test papers shows that OpenReviewer produces considerably more critical and realistic reviews compared to general-purpose LLMs like GPT-4 and Claude-3.5. While other LLMs tend toward overly positive assessments, OpenReviewer's recommendations closely match the distribution of human reviewer ratings. The system provides authors with rapid, constructive feedback to improve their manuscripts before submission, though it is not intended to replace human peer review. OpenReviewer is available as an online demo and open-source tool.
- Abstract(参考訳): 我々は,機械学習およびAIカンファレンス論文の高品質なピアレビューを生成するオープンソースシステムであるOpenReviewerを紹介する。
コアとなるLlama-OpenReviewer-8Bは、8Bパラメータ言語モデルで、トップカンファレンスから79,000人の専門家レビューに基づいて微調整されている。
OpenReviewerはPDF論文の提出とレビューテンプレートを入力として、式やテーブルなどの技術的な内容を含む全文を抽出し、カンファレンス固有のガイドラインに従って構造化されたレビューを生成する。
我々は, GPT-4 や Claude-3.5 などの汎用 LLM と比較して, OpenReviewer がかなり批判的かつ現実的な評価を得られることを示した。
他のLCMは過度に肯定的な評価を行う傾向にあるが、OpenReviewerの勧告は人間のレビュアー評価の分布と密接に一致している。
このシステムは、著者が提出する前に原稿を改善するために、迅速で建設的なフィードバックを提供するが、それは人間のピアレビューを置き換えることを意図していない。
OpenReviewerはオンラインデモおよびオープンソースツールとして利用できる。
関連論文リスト
- LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。
命令ベースのデータセットの微調整により、パフォーマンスが10~20ポイント向上する。
論文 参考訳(メタデータ) (2025-04-15T10:07:33Z) - Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.86204862475864]
Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。
ICLR 2025で大規模なランダム化制御研究として実装された。
フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
論文 参考訳(メタデータ) (2025-04-13T22:01:25Z) - DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process [30.710131188931317]
DeepReviewは、構造化分析、文献検索、エビデンスに基づく議論を取り入れて専門家レビュアーをエミュレートするように設計されたフレームワークである。
ベストモードでは、DeepReviewer-14BはGPT-o1とDeepSeek-R1に対して88.21%、80.20%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-03-11T15:59:43Z) - Generative Adversarial Reviews: When LLMs Become the Critic [1.2430809884830318]
本稿では,LLMを利用したエージェントを利用して,忠実なピアレビュアーをシミュレートするジェネレーティブエージェントレビュアー(GAR)を紹介する。
このアプローチの中心は、グラフベースの原稿表現であり、コンテンツを凝縮し、情報を論理的に整理する。
本実験は,GARが人間レビュアーに対して,詳細なフィードバックと論文結果の予測を行う上で,相容れない性能を示すことを示した。
論文 参考訳(メタデータ) (2024-12-09T06:58:17Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Streamlining the review process: AI-generated annotations in research manuscripts [0.5735035463793009]
本研究では,Large Language Models (LLM) をピアレビュープロセスに統合し,効率を向上する可能性について検討する。
我々は、AIと人間のコラボレーションの潜在的な領域として、写本の注釈、特に抜粋ハイライトに焦点を当てている。
本稿では,GPT-4を利用した原稿レビュープラットフォームAnnotateGPTを紹介する。
論文 参考訳(メタデータ) (2024-11-29T23:26:34Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Reviewer2: Optimizing Review Generation Through Prompt Generation [28.050468098801872]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。
従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。
アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文 参考訳(メタデータ) (2024-02-16T18:43:10Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。