論文の概要: Iterative Foundation Model Fine-Tuning on Multiple Rewards
- arxiv url: http://arxiv.org/abs/2511.00220v1
- Date: Fri, 31 Oct 2025 19:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.678541
- Title: Iterative Foundation Model Fine-Tuning on Multiple Rewards
- Title(参考訳): 反復的ファンデーションモデルファインタニング
- Authors: Pouya M. Ghari, Simone Sciabola, Ye Wang,
- Abstract要約: 本稿では,ファインチューニング基礎モデルのための新しい強化学習手法を提案する。
これらの報酬に対して反復的な微調整戦略を採用することにより,本手法は最先端のRL法を一般化する。
- 参考スコア(独自算出の注目度): 12.126070369637551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning foundation models has emerged as a powerful approach for generating objects with specific desired properties. Reinforcement learning (RL) provides an effective framework for this purpose, enabling models to generate outputs that maximize a given reward function. However, in many applications such as text generation and drug discovery, it can be suboptimal to optimize using a single reward signal, as multiple evaluation criteria are often necessary. This paper proposes a novel reinforcement learning-based method for fine-tuning foundation models using multiple reward signals. By employing an iterative fine-tuning strategy across these rewards, our approach generalizes state-of-the-art RL-based methods. We further provide a theoretical analysis that offers insights into the performance of multi-reward RL fine-tuning. Experimental results across diverse domains including text, biological sequence, and small molecule generation, demonstrate the effectiveness of the proposed algorithm compared to state-of-the-art baselines.
- Abstract(参考訳): ファインチューニング基盤モデルは、特定の望ましい特性を持つオブジェクトを生成するための強力なアプローチとして登場した。
強化学習(RL)はこの目的のために効果的なフレームワークを提供し、モデルが与えられた報酬関数を最大化する出力を生成することができる。
しかし、テキスト生成や薬物発見といった多くのアプリケーションでは、複数の評価基準が必要な場合が多いため、単一の報酬信号を用いて最適化することが最適ではない。
本稿では,複数の報酬信号を用いた基礎モデルの微調整のための新しい強化学習手法を提案する。
これらの報酬に対して反復的な微調整戦略を採用することにより,本手法は最先端のRL法を一般化する。
さらに,マルチリワードRLファインチューニングの性能に関する知見を提供する理論解析を行った。
テキスト, 生物学的配列, 小分子生成など多種多様な領域にまたがる実験により, 提案アルゴリズムの有効性を最先端のベースラインと比較した。
関連論文リスト
- Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。