論文の概要: Uni-Synergy: Bridging Understanding and Generation for Personalized Reasoning via Co-operative Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.10445v1
- Date: Mon, 11 May 2026 12:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.559454
- Title: Uni-Synergy: Bridging Understanding and Generation for Personalized Reasoning via Co-operative Reinforcement Learning
- Title(参考訳): Uni-Synergy:共同強化学習によるパーソナライズされた推論のためのブリッジング理解と生成
- Authors: Zijun Shen, Sihan Yang, Ruichuan An, Ziyu Guo, Hao Liang, Ming Lu, Renrui Zhang, Wentao Zhang,
- Abstract要約: 我々は、パーソナライズされた理解と生成を共同で最適化する、エンドツーエンドの強化学習フレームワークSync-R1を提案する。
Sync-R1はパーソナライズされた理解を可能にしてコンテンツ生成をガイドし、生成した品質は相互に理解を洗練させる。
また,低電位トラジェクタを適応的にフィルタして勾配分散を低減し,収束を加速する動的グループスケーリング(DGS)も導入する。
実験結果から,Sync-R1は高度なクロスタスク推論とロバストなパーソナライゼーションを実現していることがわかった。
- 参考スコア(独自算出の注目度): 56.99010101756807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Models (UMMs) excel in general tasks but struggle to bridge the gap between personalized understanding and generation. Prior works largely rely on implicit token-level alignment via supervised fine-tuning, which fails to fully capture the potential synergy between comprehension and creation. In this work, we propose Sync-R1, an end-to-end reinforcement learning framework that jointly optimizes personalized understanding and generation within a single, explicit reasoning loop. Through this unified feedback process, Sync-R1 enables personalized comprehension to guide content creation, while the resulting generation quality reciprocally refines understanding within an integrated reward landscape. To efficiently orchestrate this dual-task synergy, we introduce Sync-GRPO, a reinforcement learning method utilizing an ensemble reward system. Furthermore, we propose Dynamic Group Scaling (DGS), which adaptively filters low-potential trajectories to reduce gradient variance and accelerate convergence. To better reflect real-world complexity, we introduce UnifyBench++, featuring denser textual descriptions and richer user contexts. Experimental results demonstrate that Sync-R1 achieves state-of-the-art performance, showcasing superior cross-task reasoning and robust personalization without requiring complex cold-start procedures. The code and the UnifyBench++ dataset will be released at: https://github.com/arctanxarc/UniCTokens.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、一般的なタスクでは優れているが、パーソナライズされた理解と生成の間のギャップを埋めるのに苦労する。
それまでの研究は、教師付き微調整による暗黙のトークンレベルのアライメントに大きく依存していたため、理解と創造の間のシナジーの可能性をフルに捉えられなかった。
本研究では,1つの明確な推論ループ内でパーソナライズされた理解と生成を共同で最適化する,エンドツーエンドの強化学習フレームワークSync-R1を提案する。
この統合されたフィードバックプロセスを通じて、Sync-R1は、パーソナライズされた理解によってコンテンツ生成をガイドし、生成した品質は、統合された報酬ランドスケープ内での理解を相互に洗練する。
このデュアルタスクのシナジーを効率的に編成するために,アンサンブル報酬システムを利用した強化学習手法Sync-GRPOを導入する。
さらに,低電位トラジェクタを適応的にフィルタして勾配分散を低減し,収束を加速する動的グループスケーリング(DGS)を提案する。
現実世界の複雑さをよりよく反映するために、より密集したテキスト記述とよりリッチなユーザコンテキストを備えたUnifyBench++を紹介します。
実験により、Sync-R1は、複雑なコールドスタート手順を必要とせず、優れたクロスタスク推論と堅牢なパーソナライズを実現していることが示された。
コードとUnifyBench++データセットは、https://github.com/arctanxarc/UniCTokensでリリースされる。
関連論文リスト
- Steering Visual Generation in Unified Multimodal Models with Understanding Supervision [42.765106450407814]
統一マルチモーダルモデルは、理解と生成のギャップを埋めるために考えられている。
本稿では, 個別のタスクとしてだけでなく, 生成表現を制御するための直接監督信号として, より軽量なフレームワークである「理解指向ポストトレーニング(UNO)」を提案する。
論文 参考訳(メタデータ) (2026-05-07T07:20:04Z) - Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching [17.68651859356751]
UniDFlowは、マルチモーダル理解、生成、編集のための個別フローマッチングフレームワークである。
UniDFlpw SOTAは、インペイント、インコンテキスト画像生成、参照ベースの編集、合成生成などのタスクに強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-02-12T17:59:08Z) - PIT: A Dynamic Personalized Item Tokenizer for End-to-End Generative Recommendation [10.959841655014387]
PITは動的パーソナライズされたアイテムトークン作成フレームワークで、エンドツーエンドのジェネレーティブレコメンデーションを提供する。
協調的な信号アライメントを通じて協調的なパターンを調和させる、共同生成アーキテクチャを採用している。
実世界のデータセットの実験は、PITが一貫して競争ベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-09T11:28:56Z) - UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation [98.93314262366681]
胸部X線理解・生成のための次世代統合医療基盤モデルUniXについて述べる。
UniXは2つのタスクを、理解のための自己回帰分岐と高忠実度生成のための拡散分岐に分離する。
2つの代表的なベンチマークでは、Unixは46.1%の性能向上と24.2%の世代品質向上を実現している。
論文 参考訳(メタデータ) (2026-01-16T18:59:58Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。
ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。
UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-23T06:43:54Z) - SyMerge: From Non-Interference to Synergistic Merging via Single-Layer Adaptation [28.417947631789783]
SyMergeは1つのタスク固有のレイヤとマージ係数を共同で最適化する軽量フレームワークである。
SyMergeは、ビジョン、密度予測、NLPベンチマークを越えて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。