論文の概要: From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space
- arxiv url: http://arxiv.org/abs/2603.12648v1
- Date: Fri, 13 Mar 2026 04:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.907371
- Title: From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space
- Title(参考訳): スパースからデンスへ:拡張条件空間によるフローモデルのためのマルチビューGRPO
- Authors: Jiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei, Xiaohang Zhan, Jiaqi Wang, Tong Wu, Xingang Pan, Dahua Lin,
- Abstract要約: グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
条件空間を拡大することで関係探索を強化する新しい手法であるMulti-View GRPOを提案する。
MV-GRPOは最先端手法よりも優れたアライメント性能を実現する。
- 参考スコア(独自算出の注目度): 78.36537400975298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
しかし, 単一条件に対して生成サンプル群を評価できる標準パラダイムは, サンプル間関係の探究が不十分であり, 整合効率と性能天井の両立が困難である。
この疎い単一視点評価スキームに対処するために,条件空間を拡大して関係探索を強化し,密集した多視点報酬マッピングを作成する新しいアプローチであるMulti-View GRPO(MV-GRPO)を提案する。
具体的には、あるプロンプトから生成されたサンプルのグループに対して、MV-GRPOはフレキシブルなコンディションエンハンサーを利用して、セマンティックに隣接しているが多様なキャプションを生成する。
これらのキャプションは、マルチビューで有利な再推定を可能にし、多様なセマンティック属性をキャプチャし、よりリッチな最適化信号を提供する。
これらの新しいキャプションに条件付けされたサンプルの確率分布を導出することにより、コストのかかるサンプル再生を伴わずにトレーニングプロセスに組み込むことができる。
MV-GRPOは最先端手法よりも優れたアライメント性能を示す。
関連論文リスト
- Test-Time Conditioning with Representation-Aligned Visual Features [9.262325724962485]
Representation-Aligned Guidance (REPA-G)を導入する。
我々は,事前学習した特徴抽出器から抽出した条件付き表現に対して,デノナイズ処理を行う。
提案手法は, 単一パッチによるきめ細かいテクスチャマッチングから, 広義の意味指導まで, 複数スケールで多目的制御を行う。
論文 参考訳(メタデータ) (2026-02-03T17:15:03Z) - Know Your Step: Faster and Better Alignment for Flow Matching Models via Step-aware Advantages [6.470160796651034]
本研究では,画像モデルに対するフローマッチングテキストを,人間の好みによく適合した効率的な数ステップ生成器にトレーニングするための新しいフレームワークを提案する。
TAFS GRPOは画像生成のステップ数で高い性能を示し、生成した画像と人間の好みとのアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2026-02-02T03:32:00Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation [29.015994347609936]
Group Relative Policy Optimization (GRPO)は、フローマッチングベースのテキスト・ツー・イメージ(T2I)生成に強い可能性を示している。
我々は、最適化のパラダイムをステップレベルからチャンクレベルにシフトすることで、これらの問題を効果的に軽減できると主張している。
Chunk-GRPOは、T2I生成のための最初のチャンクレベルGRPOベースのアプローチである。
論文 参考訳(メタデータ) (2025-10-24T15:50:36Z) - Incomplete Multi-view Clustering via Hierarchical Semantic Alignment and Cooperative Completion [13.39263294343983]
本稿では,階層的セマンティックアライメントと協調補完(HSACC)に基づく,新しい不完全なマルチビュークラスタリングフレームワークを提案する。
HSACCはデュアルレベルのセマンティック空間設計により、堅牢なクロスビュー融合を実現する。
実験の結果、HSACCは5つのベンチマークデータセットで最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-10-14T02:58:10Z) - Towards Reliable and Holistic Visual In-Context Learning Prompt Selection [82.23704441763651]
Visual In-Context Learning (VICL) は、視覚基礎モデルを新しいタスクに適用するための顕著なアプローチとして登場した。
部分2Global や VPR のような VICL の手法は、クエリ画像とより視覚的に類似したイメージが、より良いコンテキスト内例として機能するという類似性と優先度の仮定に基づいている。
本稿では、VICLにおけるテキスト内サンプルの信頼性と包括的選択のために、Partial2Globalの拡張版を提案する。
論文 参考訳(メタデータ) (2025-09-30T09:23:12Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Deep Incomplete Multi-view Clustering with Cross-view Partial Sample and
Prototype Alignment [50.82982601256481]
深層不完全なマルチビュークラスタリングのためのクロスビュー部分サンプルとプロトタイプアライメントネットワーク(CPSPAN)を提案する。
従来のコントラストベースの手法とは異なり、インスタンスとインスタンスの対応構築を導くために、ペア観測データアライメントを「プロキシ監視信号」として採用する。
論文 参考訳(メタデータ) (2023-03-28T02:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。