論文の概要: Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.20107v1
- Date: Mon, 26 May 2025 15:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.552148
- Title: Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning
- Title(参考訳): 強化学習による数ステップテキスト・マルチビュー拡散の精錬
- Authors: Ziyi Zhang, Li Shen, Deheng Ye, Yong Luo, Huangxuan Zhao, Lefei Zhang,
- Abstract要約: 数ステップのT2MV拡散モデルに適した新しい強化学習(RL)ファインタニングフレームワークを提案する。
我々はまず、T2MVを1つの統合マルコフ決定プロセスとしてすべての視点で認知する。
次に,テスト時間T2MVサンプリング技術であるZMV-Samplingを導入する。
- 参考スコア(独自算出の注目度): 36.08180902708641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-multiview (T2MV) generation, which produces coherent multiview images from a single text prompt, remains computationally intensive, while accelerated T2MV methods using few-step diffusion models often sacrifice image fidelity and view consistency. To address this, we propose a novel reinforcement learning (RL) finetuning framework tailored for few-step T2MV diffusion models to jointly optimize per-view fidelity and cross-view consistency. Specifically, we first reformulate T2MV denoising across all views as a single unified Markov decision process, enabling multiview-aware policy optimization driven by a joint-view reward objective. Next, we introduce ZMV-Sampling, a test-time T2MV sampling technique that adds an inversion-denoising pass to reinforce both viewpoint and text conditioning, resulting in improved T2MV generation at the cost of inference time. To internalize its performance gains into the base sampling policy, we develop MV-ZigAL, a novel policy optimization strategy that uses reward advantages of ZMV-Sampling over standard sampling as learning signals for policy updates. Finally, noting that the joint-view reward objective under-optimizes per-view fidelity but naively optimizing single-view metrics neglects cross-view alignment, we reframe RL finetuning for T2MV diffusion models as a constrained optimization problem that maximizes per-view fidelity subject to an explicit joint-view constraint, thereby enabling more efficient and balanced policy updates. By integrating this constrained optimization paradigm with MV-ZigAL, we establish our complete RL finetuning framework, referred to as MVC-ZigAL, which effectively refines the few-step T2MV diffusion baseline in both fidelity and consistency while preserving its few-step efficiency.
- Abstract(参考訳): 単一のテキストプロンプトからコヒーレントなマルチビュー画像を生成するテキスト・ツー・マルチビュー(T2MV)生成は、計算集約的であり、少数の拡散モデルを用いた高速化されたT2MV法は、画像の忠実さとビューの一貫性を犠牲にすることが多い。
そこで本研究では,数ステップのT2MV拡散モデルに適した新しい強化学習(RL)ファインタニングフレームワークを提案する。
具体的には、まず、T2MVを1つの統合マルコフ決定プロセスとしてすべてのビューに分割し、共同ビュー報酬目的によって駆動されるマルチビュー対応ポリシー最適化を可能にする。
次に、テスト時間T2MVサンプリング技術であるZMV-Samplingを導入し、インバージョン化パスを付加し、視点とテキスト条件の両方を強化し、推論時間のコストでT2MV生成を改善する。
そこで我々は,ZMV-Sampling の報酬効果を標準サンプリングよりも活用した新しい政策最適化戦略である MV-Zigal を開発した。
最後に、共同ビュー報酬の目的がビュー毎の忠実度を過度に最適化するが、一視点のメトリクスを過度に最適化することは、クロスビューアライメントを無視していることを指摘し、T2MV拡散モデルのRL微調整を、明示的な共同ビュー制約によるビュー毎の忠実度を最大化し、より効率的でバランスの取れたポリシー更新を可能にする制約付き最適化問題として再設計する。
この制約付き最適化パラダイムをMV-ZigALと統合することにより、MV-ZigALと呼ばれる完全なRL微調整フレームワークを確立し、その数ステップの効率を保ちながら、数ステップのT2MV拡散ベースラインを効果的に洗練する。
関連論文リスト
- EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution [11.331361804059625]
Enhancing Anything Model (EAM)はBlind Super-Resolution法である。
画像復元を効果的に誘導する新しいブロックである$Psi$-DiTを導入する。
EAMは、複数のデータセットにまたがる最先端の結果を達成し、定量的メトリクスと視覚的品質の両方において、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-08T13:03:07Z) - NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images [50.36605863731669]
NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。
NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを達成する。
提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-12-04T17:58:03Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。
具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。
理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文 参考訳(メタデータ) (2024-04-12T09:22:24Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - ES-MVSNet: Efficient Framework for End-to-end Self-supervised Multi-View
Stereo [11.41432976633312]
本研究では、ES-MVSNetと呼ばれるエンドツーエンドのMVSのための効率的なフレームワークを提案する。
モデル性能を損なうことなくメモリ使用量を43%削減するメモリ効率アーキテクチャを提案する。
非対称なビュー選択ポリシーと領域認識深度整合性の設計により、新たな整合性信号のサードパーティモデルに頼ることなく、E2E自己監督型MVS手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-04T08:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。