論文の概要: REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.11718v1
- Date: Fri, 16 May 2025 22:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.802026
- Title: REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning
- Title(参考訳): REMOR: LLM推論と多目的強化学習による自動ピアレビュー生成
- Authors: Pawin Taechoyotin, Daniel Acuna,
- Abstract要約: 我々は,多目的強化学習(REMOR)を用いた推論LLMが,限界を克服できるかを評価する。
REMORは、人間のレビューの平均的な報酬の2倍以上の報酬、非最先端のエージェント的マルチモーダルAIレビューシステムを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-based peer review systems tend to produce shallow and overpraising suggestions compared to human feedback. Here, we evaluate how well a reasoning LLM trained with multi-objective reinforcement learning (REMOR) can overcome these limitations. We start by designing a multi-aspect reward function that aligns with human evaluation of reviews. The aspects are related to the review itself (e.g., criticisms, novelty) and the relationship between the review and the manuscript (i.e., relevance). First, we perform supervised fine-tuning of DeepSeek-R1-Distill-Qwen-7B using LoRA on PeerRT, a new dataset of high-quality top AI conference reviews enriched with reasoning traces. We then apply Group Relative Policy Optimization (GRPO) to train two models: REMOR-H (with the human-aligned reward) and REMOR-U (with a uniform reward). Interestingly, the human-aligned reward penalizes aspects typically associated with strong reviews, leading REMOR-U to produce qualitatively more substantive feedback. Our results show that REMOR-U and REMOR-H achieve more than twice the average rewards of human reviews, non-reasoning state-of-the-art agentic multi-modal AI review systems, and general commercial LLM baselines. We found that while the best AI and human reviews are comparable in quality, REMOR avoids the long tail of low-quality human reviews. We discuss how reasoning is key to achieving these improvements and release the Human-aligned Peer Review Reward (HPRR) function, the Peer Review Reasoning-enriched Traces (PeerRT) dataset, and the REMOR models, which we believe can help spur progress in the area.
- Abstract(参考訳): AIベースのピアレビューシステムは、人間のフィードバックに比べ、浅く誇張された提案を生み出す傾向がある。
本稿では,多目的強化学習(REMOR)を用いて学習したLLMが,これらの制約を克服できるかを評価する。
まず、レビューの人間による評価と一致したマルチアスペクト報酬関数を設計することから始める。
これらの側面は、レビュー自体(例えば、批評、ノベルティ)と、レビューと原稿の関係(すなわち、関連性)に関連している。
まず、PierRT上でLoRAを使用してDeepSeek-R1-Distill-Qwen-7Bの教師付き微調整を行う。
次に、グループ相対政策最適化(GRPO)を用いて、REMOR-H(人間対応報酬付き)とREMOR-U(一様報酬付き)の2つのモデルを訓練する。
興味深いことに、人間による報酬は、強いレビューに関連する側面を罰し、REMOR-Uは質的により実質的なフィードバックを生み出す。
以上の結果から,REMOR-UとREMOR-Hは,人間レビューの2倍以上の報酬,非最先端エージェント型マルチモーダルAIレビューシステム,一般商用LCMベースラインを達成できた。
最高のAIと人間のレビューは品質に匹敵するが、REMORは品質の低い人間のレビューの長い尾を避けている。
我々は、これらの改善を達成する上で、推論がどのように鍵を握り、Human-aligned Peer Review Reward (HPRR) 関数、Peer Review Reasoning-enriched Traces (PeerRT) データセット、REMOR モデルをリリースし、その領域の進展を加速させると考えている。
関連論文リスト
- Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。
特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。
HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文 参考訳(メタデータ) (2025-03-26T03:17:12Z) - ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [26.031039064337907]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z) - Reinforcement Learning with Segment Feedback [56.54271464134885]
状態ごとの反応フィードバックと軌道フィードバックのギャップを埋める一般的なパラダイムを提供するRLというモデルを考える。
バイナリフィードバックの下では、$m$のセグメント数の増加は指数率で後悔を減少させるが、驚くべきことに、和フィードバックの下では、$m$の増加は後悔を著しく減少させるものではない。
論文 参考訳(メタデータ) (2025-02-03T23:08:42Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。