論文の概要: A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2508.09155v1
- Date: Tue, 05 Aug 2025 07:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.561727
- Title: A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models
- Title(参考訳): 転がり石の集合体はモスを含まない:大規模マルチモーダルモデルにおける安定自己評価のための適応的政策最適化
- Authors: Wenkai Wang, Hongcan Guo, Zheqi Lv, Shengyu Zhang,
- Abstract要約: 本稿では,学習目標をリアルタイムで適応的に調整できるオンライン強化学習フレームワークであるAdaPOを提案する。
その結果,本手法は直接推論と自己評価能力の両方を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 4.417707977122247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evaluation, a model's ability to assess the correctness of its own output, is crucial for Large Multimodal Models (LMMs) to achieve self-improvement in multi-turn conversations, yet largely absent in foundation models. Recent work has employed reinforcement learning (RL) to enhance self-evaluation; however, its fixed reward mechanism suffers from reward hacking when optimizing multiple training objectives, leading to model collapse. In this paper we propose AdaPO, an online reinforcement learning framework capable of adaptively adjusting training objective in real time according to the current training state for each task. Specifically, to mitigate reward hacking , AdaPO introduces an Adaptive Reward Model (ARM) and a Reward Aware Dynamic KL Regularization mechanism. ARM assesses the task's training state from the distribution of model generated multi-turn trajectories' performance. Reward Aware Dynamic KL replaces a fixed penalty with dynamic coefficients which is modulated by the reward gap between different multi-turn situations. Notably, our method automatically and smoothly adjusts its learning focus based on sub-tasks' training progress without manual intervention. Extensive experiments over 8 benchmarks and various models show that our method significantly enhances both direct reasoning and self-evaluation capability. We will release our code to contribute to the community.
- Abstract(参考訳): 自己評価は、自己のアウトプットの正確性を評価する能力であり、大規模マルチモーダルモデル(LMM)において、多ターン会話における自己改善を実現するために不可欠であるが、基礎モデルにはほとんど欠落している。
最近の研究では、自己評価を高めるために強化学習(RL)を採用しているが、その固定報酬機構は、複数のトレーニング目標を最適化する際に報酬ハッキングに悩まされ、モデルが崩壊する。
本稿では,タスク毎の現在のトレーニング状況に応じて,学習目標をリアルタイムで適応的に調整できるオンライン強化学習フレームワークであるAdaPOを提案する。
具体的には、報酬ハッキングを軽減するために、AdaPOはAdaptive Reward Model(ARM)とReward Aware Dynamic KL Regularizationメカニズムを導入している。
ARMは、モデル生成したマルチターントラジェクトリのパフォーマンスの分布からタスクのトレーニング状態を評価する。
Reward Aware Dynamic KLは、固定されたペナルティを、異なるマルチターン状況間の報酬ギャップによって変調される動的係数に置き換える。
特に,本手法は,手作業による介入を伴わずに,サブタスクの学習進捗に基づいて学習焦点を自動的に,円滑に調整する。
8つのベンチマークおよび各種モデルに対する大規模な実験により,本手法は直接推論と自己評価能力の両方を著しく向上させることが示された。
私たちはコミュニティに貢献するためにコードを公開します。
関連論文リスト
- Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models [20.30272221358623]
トレーニングを通じて報酬モデルのプロンプトを動的に洗練するメタリワードモデルを統合するフレームワークを導入する。
MPOでは、メタリワードモデルは、進化するトレーニングコンテキストを監視し、高いアライメントを維持するための報酬モデルのプロンプトを継続的に調整する。
広範囲に手作りの報酬プロンプトによって導かれるモデルと同等以上のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2025-04-28T18:02:35Z) - Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。
当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。
この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文 参考訳(メタデータ) (2025-03-28T16:42:21Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Diving into Self-Evolving Training for Multimodal Reasoning [36.70979791148913]
自己進化的トレインは複雑な推論タスクの鍵となるアプローチとして登場した。
本稿では,強化学習のレンズによるマルチモーダル推論のための自己進化学習を再構成する。
M-STARは、様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
論文 参考訳(メタデータ) (2024-12-23T10:18:41Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。