論文の概要: Co-Reinforcement Learning for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2505.17534v2
- Date: Sat, 31 May 2025 13:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.432527
- Title: Co-Reinforcement Learning for Unified Multimodal Understanding and Generation
- Title(参考訳): 統一型マルチモーダル理解・生成のための協調強化学習
- Authors: Jingjing Jiang, Chongjie Si, Jun Luo, Hanwang Zhang, Chao Ma,
- Abstract要約: 本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
- 参考スコア(独自算出の注目度): 53.03303124157899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a pioneering exploration of reinforcement learning (RL) via group relative policy optimization for unified multimodal large language models (ULMs), aimed at simultaneously reinforcing generation and understanding capabilities. Through systematic pilot studies, we uncover the significant potential of ULMs to enable the synergistic co-evolution of dual capabilities within a shared policy optimization framework. Building on this insight, we introduce CoRL, a co-reinforcement learning framework comprising a unified RL stage for joint optimization and a refined RL stage for task-specific enhancement. With the proposed CoRL, our resulting model, ULM-R1, achieves average improvements of 7% on three text-to-image generation datasets and 23% on nine multimodal understanding benchmarks. These results demonstrate the effectiveness of CoRL and highlight the substantial benefit of reinforcement learning in facilitating cross-task synergy and optimization for ULMs. Code is available at https://github.com/mm-vl/ULM-R1.
- Abstract(参考訳): 本稿では,統合多モーダル大言語モデル(ULM)に対するグループ相対ポリシー最適化による強化学習(RL)の先駆的探索について述べる。
体系的なパイロット研究を通じて、共有ポリシ最適化フレームワーク内での二重機能の相乗的共進化を可能にするために、UDMの有意義な可能性を明らかにする。
この知見に基づいて,共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
これらの結果から,ULMのクロスタスク・シナジーと最適化を促進する上で,CoRLの有効性を示し,強化学習の実質的なメリットを強調した。
コードはhttps://github.com/mm-vl/ULM-R1.comで入手できる。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。
マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。
提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文 参考訳(メタデータ) (2025-05-31T07:38:41Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - AmCLR: Unified Augmented Learning for Cross-Modal Representations [0.0]
バイモーダル視覚言語モデルに適したAmCLRとxAmCLRの目的関数を提案する。
これらの進歩は、より弾力的で一般化可能な対照的な学習プロセスをもたらす。
論文 参考訳(メタデータ) (2024-12-10T23:32:36Z) - Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning [13.753960633998389]
強化学習 (Reinforcement Learning, RL) は, 特定のタスクにおいて, 大規模言語モデル (LLM) を微調整するための重要な手法として登場した。
本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。
その結果,CORYは政策最適性,分散崩壊抵抗性,ロバスト性の訓練においてPPOよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T14:55:26Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムがRLベンチマークの幅広いスペクトルにわたって顕著な一般化を示すことを実証的に示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。