論文の概要: REM-CTX: Automated Peer Review via Reinforcement Learning with Auxiliary Context
- arxiv url: http://arxiv.org/abs/2604.00248v1
- Date: Tue, 31 Mar 2026 21:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.727778
- Title: REM-CTX: Automated Peer Review via Reinforcement Learning with Auxiliary Context
- Title(参考訳): REM-CTX:補助的コンテキストによる強化学習による自動ピアレビュー
- Authors: Pawin Taechoyotin, Daniel E. Acuna,
- Abstract要約: 本稿では、レビュー生成プロセスに補助的コンテキストを組み込んだ強化学習システムREM-CTXを紹介する。
実験の結果,REM-CTXは6つのベースラインの中で最もレビュー品質が高いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most automated peer review systems rely on textual manuscript content alone, leaving visual elements such as figures and external scholarly signals underutilized. We introduce REM-CTX, a reinforcement-learning system that incorporates auxiliary context into the review generation process via correspondence-aware reward functions. REM-CTX trains an 8B-parameter language model with Group Relative Policy Optimization (GRPO) and combines a multi-aspect quality reward with two correspondence rewards that explicitly encourage alignment with auxiliary context. Experiments on manuscripts across Computer, Biological, and Physical Sciences show that REM-CTX achieves the highest overall review quality among six baselines, outperforming other systems with substantially larger commercial models, and surpassing the next-best RL baseline across both quality and contextual grounding metrics. Ablation studies confirm that the two correspondence rewards are complementary: each selectively improves its targeted correspondence reward while preserving all quality dimensions, and the full model outperforms all partial variants. Analysis of training dynamics reveals that the criticism aspect is negatively correlated with other metrics during training, suggesting that future studies should group multi-dimension rewards for review generation.
- Abstract(参考訳): ほとんどの自動化されたピアレビューシステムは、図形や外部の学問的信号などの視覚的要素を未利用のまま残して、テキストの原稿コンテンツのみに依存している。
本稿では,レコメンデーション・アウェア・報酬関数を通じて,補助的コンテキストをレビュー生成プロセスに組み込んだ強化学習システムREM-CTXを紹介する。
REM-CTXは、グループ相対ポリシー最適化(GRPO)で8Bパラメータ言語モデルを訓練し、多アスペクト品質報酬と2つの対応報酬を組み合わせ、補助的文脈とのアライメントを明確に促進する。
コンピュータ、生物学、物理科学の写本に対する実験では、REM-CTXは6つのベースラインの中で最高のレビュー品質を達成し、他のシステムよりもはるかに大きな商用モデルで、品質と文脈の両方においてRLのベースラインを上回っている。
アブレーション研究は、2つの対応報酬が相補的であることを確認し、それぞれが全ての品質次元を保ちながらターゲットとなる対応報酬を選択的に改善し、完全なモデルが全ての部分変量より優れる。
トレーニングダイナミクスの分析は、批判的側面がトレーニング中の他の指標と負の相関があることを明らかにし、将来の研究はレビュー生成のために多次元報酬をグループ化するべきであることを示唆している。
関連論文リスト
- Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing [52.825281124618535]
反応図解析(RxnDP)は、文献から化学合成情報を抽出するために重要である。
近年の視覚言語モデル(VLM)はこの複雑な視覚的推論タスクを自動化するための有望なパラダイムとして登場した。
この研究はVLMベースのRxnDPを2つの相補的視点、すなわち表現の促進と学習パラダイムから強化する。
論文 参考訳(メタデータ) (2026-03-16T09:17:05Z) - Expanding the Capabilities of Reinforcement Learning via Text Feedback [49.561885700139676]
テキストフィードバックをトレーニング中に利用できるが、推論では利用できないマルチターンRLセットアップであるテキストフィードバック(RLTF)を形式化する。
そこで本研究では, 自己蒸留法(RLTF-SD)と, フィードバック条件付き第2ターン世代に適合するように単一ターンポリシーを訓練するフィードバックモデリング法(RLTF-FM)の2つの手法を提案する。
以上の結果から,両手法はベンチマークにおいて強いベースラインを一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-02T18:56:56Z) - DMA: Online RAG Alignment with Human Feedback [39.62171539147465]
マルチグラニュラリティなヒューマンフィードバックを取り入れたオンライン学習フレームワークであるDynamic Memory Alignment (DMA)を紹介した。
DMAは、ドキュメント、リスト、レスポンスレベルの信号をコヒーレントな学習パイプラインにまとめる。
オフラインでは、DMAは競合検索を保ちながら、会話型QAで顕著な利得を得る。
論文 参考訳(メタデータ) (2025-11-06T23:51:08Z) - MAGIC: Multi-Agent Argumentation and Grammar Integrated Critiquer [4.262223700066747]
マルチエージェント論と文法統合批評(MAGIC)
フレームワークは、複数の特殊エージェントを使用して、異なる書き込みの側面を評価し、総合的なスコアを予測し、詳細でルーリックなフィードバックを生成する。
論文 参考訳(メタデータ) (2025-06-16T02:02:46Z) - AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification [31.463529258956452]
本稿では,アンサンブルのプロンプトと逆検証を用いた統一プロセス報酬モデル(PRM)をトレーニングするための新しいフレームワークであるAURORAを提案する。
まず、さまざまなプロンプト戦略とアンサンブルメソッドを使用して、自動化されたアノテーションとプロセスの評価を行います。
フレームワークのパフォーマンスを評価するために、UniversalBenchを導入することで、既存のProcessBenchベンチマークを超えて拡張します。
論文 参考訳(メタデータ) (2025-02-17T07:41:27Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Summarization from Leaderboards to Practice: Choosing A Representation
Backbone and Ensuring Robustness [21.567112955050582]
自動評価と人的評価の両方において、BARTはPEGやT5よりも優れている。
システム出力のかなりのばらつきは、人間の評価でのみ捉えられる。
論文 参考訳(メタデータ) (2023-06-18T13:35:41Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。