論文の概要: Preference Optimization for Review Question Generation Improves Writing Quality
- arxiv url: http://arxiv.org/abs/2602.15849v1
- Date: Fri, 23 Jan 2026 18:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.646875
- Title: Preference Optimization for Review Question Generation Improves Writing Quality
- Title(参考訳): レビュー質問生成の選好最適化により書き込み品質が向上
- Authors: Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari,
- Abstract要約: トレーニング可能なマルチヘッドトランスを用いた冷凍自己回帰LDMから構築した新たな報酬モデルを開発した。
我々は、人間の努力、証拠、根拠の基準に沿った質問世代モデルを訓練する。
Qwen3-32Bベースモデルと比較して、IntelliAskは様々なベンチマークで測定可能なゲインを示している。
- 参考スコア(独自算出の注目度): 29.997337923485933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer review relies on substantive, evidence-based questions, yet existing LLM-based approaches often generate surface-level queries, drawing over 50\% of their question tokens from a paper's first page. To bridge this gap, we develop IntelliReward, a novel reward model built from a frozen autoregressive LLM with trainable multi-head transformers over the final 50 token states, which outperforms API-based SFT baselines in predicting expert-level human preferences. By applying Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) with IntelliReward, we train IntelliAsk, a question-generation model aligned with human standards of effort, evidence, and grounding. We find consistent improvements on reasoning and writing benchmarks, suggesting reviewer-question quality correlates with broader capabilities. Compared to the Qwen3-32B base model, IntelliAsk shows measurable gains across diverse benchmarks, specifically improving performance on reasoning tasks like MuSR (68.3 vs 64.7 Acc) and complex writing evaluations such as WritingBench (8.31 vs 8.07). We release our implementation, expert preference annotations, and the IntelliReward model to provide an automatic evaluation benchmark for grounding, effort, and evidence in LLM-generated review questions.
- Abstract(参考訳): ピアレビューは、実質的でエビデンスに基づく質問に依存しているが、既存のLCMベースのアプローチでは、しばしば表面レベルのクエリを生成し、論文の最初のページから質問トークンの50%以上を描画する。
このギャップを埋めるために、IntelliRewardという、トレーニング可能なマルチヘッドトランスフォーマーを備えた冷凍自己回帰LDMから構築された新しい報酬モデルを開発し、エキスパートレベルの人間の嗜好を予測するために、APIベースのSFTベースラインを上回った。
Decoupled Clip and Dynamic Smpling Policy Optimization (DAPO)をIntelliRewardに適用することにより、人間の努力、証拠、根拠の基準に沿った質問生成モデルであるIntelliAskを訓練する。
推論やベンチマークの記述において一貫した改善が見られ、レビューの質がより広範な機能と相関していることを示唆している。
Qwen3-32Bベースモデルと比較すると、IntelliAskは様々なベンチマークで測定可能なゲインを示し、特に MuSR (68.3 vs 64.7 Acc) やWriteingBench (8.31 vs 8.07) のような複雑な書き込み評価のような推論タスクのパフォーマンスを改善している。
我々は,LLM生成レビュー問題における根拠,努力,エビデンスの自動評価ベンチマークを提供するため,実装,専門家選好アノテーション,IntelliRewardモデルをリリースする。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - YourBench: Easy Custom Evaluation Sets for Everyone [12.995134931278056]
YourBenchは、大規模言語モデル(LLM)を評価するための、新しいオープンソースのフレームワークである。
手動のアノテーションなしで、信頼性が高く、最新で、ドメインに適したベンチマークを安価に生成する。
我々はTemporaに基づくYourBenchライブラリ、Tempora-0325データセット、150k以上の質問応答ペア、およびすべての評価と推論トレースをリリースする。
論文 参考訳(メタデータ) (2025-04-02T15:40:24Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。