論文の概要: UniRL-Zero: Reinforcement Learning on Unified Models with Joint Language Model and Diffusion Model Experts
- arxiv url: http://arxiv.org/abs/2510.17937v1
- Date: Mon, 20 Oct 2025 16:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.422639
- Title: UniRL-Zero: Reinforcement Learning on Unified Models with Joint Language Model and Diffusion Model Experts
- Title(参考訳): UniRL-Zero:統合言語モデルと拡散モデルエキスパートによる統一モデル強化学習
- Authors: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park,
- Abstract要約: 統合強化学習(RL)フレームワークであるUniRL-Zeroについて述べる。
本研究は、統合モデル強化学習のための6つのシナリオを定義し、統合理解と生成モデルの強化学習のための体系的ベースラインを提供する。
- 参考スコア(独自算出の注目度): 44.81148439118129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UniRL-Zero, a unified reinforcement learning (RL) framework that boosts, multimodal language model understanding and reasoning, diffusion model multimedia generation, and their beneficial interaction capabilities within a unified model. Our work defines six scenarios for unified model reinforcement learning, providing systematic baselines for reinforcement learning of unified understanding and generation model. Our code is available at https://github.com/G-U-N/UniRL.
- Abstract(参考訳): 統合強化学習(RL)フレームワークであるUniRL-Zeroについて述べる。
本研究は、統合モデル強化学習のための6つのシナリオを定義し、統合理解と生成モデルの強化学習のための体系的ベースラインを提供する。
私たちのコードはhttps://github.com/G-U-N/UniRL.comで公開されています。
関連論文リスト
- Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling [29.818409458662344]
LlamaやQwenのような異なる言語モデルファミリーは、強化学習(RL)による後訓練中に異なる行動を示す
本研究では,MegaMath-Web-Proのような高品質な数学的コーパスがベースモデルとRL性能の両方を著しく改善することを明らかにする。
2段階の中間訓練戦略であるStable-then-Decayを導入し、ベースモデルを学習率を一定とした200Bトークンでトレーニングし、その後CoTに着目した3つのブランチで20Bトークンを学習速度を劣化させた。
論文 参考訳(メタデータ) (2025-06-25T14:58:13Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Studying Cross-cluster Modularity in Neural Networks [45.8172254436063]
クラスタビリティの尺度を定義し,事前学習したモデルが高度に集積されたクラスタを形成することを示す。
次に、非相互作用クラスタの形成を促進する"クラスタビリティ損失"関数を使用して、モデルをよりモジュール化するようにトレーニングします。
トレーニング済みのクラスタモデルでは,タスクの専門化は行わず,より小さな回路を形成する。
論文 参考訳(メタデータ) (2025-02-04T16:44:38Z) - Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文 参考訳(メタデータ) (2024-05-20T22:51:05Z) - Libra: Building Decoupled Vision System on Large Language Models [63.28088885230901]
大規模言語モデル(LLM)上の分離視覚システムを備えたプロトタイプモデルLibraを紹介する。
分離された視覚システムは、内部モーダルモデリングと相互モーダル相互作用を分離し、ユニークな視覚情報モデリングと効果的な相互モーダル理解をもたらす。
論文 参考訳(メタデータ) (2024-05-16T14:34:44Z) - FlexModel: A Framework for Interpretability of Distributed Large
Language Models [0.0]
マルチGPUとマルチノード構成に分散したモデルを扱うための,合理化されたインターフェースを提供するソフトウェアパッケージであるFlexModelを紹介する。
このライブラリは既存のモデル配布ライブラリと互換性があり、PyTorchモデルをカプセル化している。
ユーザ登録可能なHookFunctionを公開して,分散モデル内部との直接的なインタラクションを容易にする。
論文 参考訳(メタデータ) (2023-12-05T21:19:33Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。