論文の概要: Reward Modeling for Scientific Writing Evaluation
- arxiv url: http://arxiv.org/abs/2601.11374v1
- Date: Fri, 16 Jan 2026 15:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.539747
- Title: Reward Modeling for Scientific Writing Evaluation
- Title(参考訳): 科学的文章評価のためのリワードモデリング
- Authors: Furkan Şahinuç, Subhabrata Dutta, Iryna Gurevych,
- Abstract要約: 多様なオープンエンドの科学的記述タスクを評価するために、確実にデプロイできるモデルを開発することが重要である。
本稿では,科学的執筆評価に適した費用効率の高いオープンソース報酬モデルを提案する。
- 参考スコア(独自算出の注目度): 50.33952894976367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific writing is an expert-domain task that demands deep domain knowledge, task-specific requirements and reasoning capabilities that leverage the domain knowledge to satisfy the task specifications. While scientific text generation has been widely studied, its evaluation remains a challenging and open problem. It is critical to develop models that can be reliably deployed for evaluating diverse open-ended scientific writing tasks while adhering to their distinct requirements. However, existing LLM-based judges and reward models are primarily optimized for general-purpose benchmarks with fixed scoring rubrics and evaluation criteria. Consequently, they often fail to reason over sparse knowledge of scientific domains when interpreting task-dependent and multi-faceted criteria. Moreover, fine-tuning for each individual task is costly and impractical for low-resource settings. To bridge these gaps, we propose cost-efficient, open-source reward models tailored for scientific writing evaluation. We introduce a two-stage training framework that initially optimizes scientific evaluation preferences and then refines reasoning capabilities. Our multi-aspect evaluation design and joint training across diverse tasks enable fine-grained assessment and robustness to dynamic criteria and scoring rubrics. Experimental analysis shows that our training regime strongly improves LLM-based scientific writing evaluation. Our models generalize effectively across tasks and to previously unseen scientific writing evaluation settings, allowing a single trained evaluator to be reused without task-specific retraining.
- Abstract(参考訳): 科学的な記述は、深いドメイン知識、タスク固有の要件、そしてタスク仕様を満たすためにドメイン知識を利用する推論能力を必要とするエキスパートドメインタスクである。
科学的テキスト生成は広く研究されているが、その評価は依然として困難でオープンな問題である。
多様なオープンエンドな科学書記タスクを評価するために、それぞれの要求を順守しながら確実に展開できるモデルを開発することが重要である。
しかし、既存のLCMベースの判断モデルと報酬モデルは、主に固定されたスコアリングルーリックと評価基準を備えた汎用ベンチマークに最適化されている。
そのため、タスク依存や多面的基準を解釈する際には、科学領域の雑多な知識を論じることができないことが多い。
さらに、各タスクの微調整はコストがかかり、低リソース設定では実用的ではない。
これらのギャップを埋めるために,我々は,科学的執筆評価に適した費用効率の高いオープンソース報酬モデルを提案する。
本稿では,まず科学的評価の選好を最適化し,推論能力を洗練する2段階のトレーニングフレームワークを提案する。
多様なタスクに対する多視点評価設計と共同トレーニングにより,動的基準に対するきめ細かな評価とロバスト性を実現し,破片のスコアリングを可能にした。
実験分析により,LLMに基づく科学書記評価を強く改善することが示された。
我々のモデルは、タスク全体にわたって効果的に一般化し、以前は見つからなかった科学的記述評価設定を一般化し、単一の訓練された評価器をタスク固有のリトレーニングなしで再利用できるようにする。
関連論文リスト
- Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - XtraGPT: Context-Aware and Controllable Academic Paper Revision [43.263488839387584]
本稿では,基準誘導型意図アライメントと文脈認識モデリングを中心とした学術論文改訂のための人間-AI協調フレームワークを提案する。
XtraGPTは,コンテクスト対応,命令誘導型書き込み支援のためのオープンソースのLLMスイートである。
論文 参考訳(メタデータ) (2025-05-16T15:02:19Z) - The Science of Evaluating Foundation Models [46.973855710909746]
本研究は,(1)特定のユースケースに合わせた構造化されたフレームワークを提供することによる評価プロセスの形式化,(2)チェックリストやテンプレートなどのアクション可能なツールとフレームワークを提供することによる,徹底的,再現性,実践的評価の確保,(3)LLM評価の進歩を目標とした調査,そして実世界のアプリケーションを強調すること,の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-02-12T22:55:43Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。