論文の概要: RewardFlow: Generate Images by Optimizing What You Reward
- arxiv url: http://arxiv.org/abs/2604.08536v1
- Date: Thu, 09 Apr 2026 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.073287
- Title: RewardFlow: Generate Images by Optimizing What You Reward
- Title(参考訳): RewardFlow: Rewardの画像を最適化して画像を生成する
- Authors: Onkar Susladkar, Dong-Hwan Jang, Tushar Prakash, Adheesh Juvekar, Vedant Shah, Ayush Barik, Nabeel Bashir, Muntasir Wahed, Ritish Shrirao, Ismini Lourentzou,
- Abstract要約: RewardFlowはインバージョンフリーのフレームワークで、事前トレーニングされた拡散モデルとフローマッチングモデルを推論時に操作する。
セマンティックアライメント、知覚的忠実性、局所的な接地、オブジェクトの一貫性、人間の嗜好の相補的な相補的な相補的な相補的な報酬を統一する。
また、言語ビジョン推論によるきめ細かいセマンティック監視を提供するVQAベースの報酬も導入している。
- 参考スコア(独自算出の注目度): 6.984390336800096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RewardFlow, an inversion-free framework that steers pretrained diffusion and flow-matching models at inference time through multi-reward Langevin dynamics. RewardFlow unifies complementary differentiable rewards for semantic alignment, perceptual fidelity, localized grounding, object consistency, and human preference, and further introduces a differentiable VQA-based reward that provides fine-grained semantic supervision through language-vision reasoning. To coordinate these heterogeneous objectives, we design a prompt-aware adaptive policy that extracts semantic primitives from the instruction, infers edit intent, and dynamically modulates reward weights and step sizes throughout sampling. Across several image editing and compositional generation benchmarks, RewardFlow delivers state-of-the-art edit fidelity and compositional alignment.
- Abstract(参考訳): Inversion-free frameworkであるRewardFlowを紹介した。RewardFlowは、マルチリワードランゲヴィンダイナミクスを通じて、推論時に事前学習した拡散モデルとフローマッチングモデルを操る。
RewardFlowは、セマンティックアライメント、知覚的忠実性、局所的な接地、オブジェクトの一貫性、人間の嗜好の相補的な相補的な相補的な相補的な報酬を統一し、さらに、言語ビジョン推論によるきめ細かいセマンティックインセンティブ管理を提供するVQAベースの報酬を導入する。
これらの不均一な目的を調整するために、命令から意味的プリミティブを抽出し、編集意図を推論し、サンプリング全体を通して報酬重みとステップサイズを動的に調整する、プロンプト対応適応ポリシーを設計する。
複数の画像編集とコンポジション生成ベンチマークを通じて、RewardFlowは最先端の編集忠実度とコンポジションアライメントを提供する。
関連論文リスト
- SteerFlow: Steering Rectified Flows for Faithful Inversion-Based Image Editing [9.343095346668665]
SteerFlowはモデルに依存しない編集フレームワークで、ソースの忠実性に関する強力な理論的保証がある。
本稿では,ターゲット編集速度とソース再構成速度を適応的にブレンドして,編集軌道をソースに固定するトラジェクトリ補間法を提案する。
FLUX.1-devとStable Diffusion 3.5 Mediumの実験では、SteerFlowは既存の方法よりも優れた編集品質を実現している。
論文 参考訳(メタデータ) (2026-04-02T07:26:13Z) - CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer [85.217605146499]
CoCoDiffは、コンピュータビジョンのためのトレーニング不要で低コストなスタイル転送フレームワークである。
事前訓練された潜在拡散モデルを利用して、細粒度でセマンティックに一貫したスタイリングを実現する。
CoCoDiffは最先端のビジュアル品質と強力な定量的結果を提供し、追加のトレーニングやアノテーションに依存する方法よりも優れています。
論文 参考訳(メタデータ) (2026-02-16T04:52:29Z) - Training-Free Reward-Guided Image Editing via Trajectory Optimal Control [55.64204232819136]
トレーニング不要な報酬誘導画像編集のための新しいフレームワークを提案する。
提案手法は,既存のインバージョンベースのトレーニングフリーベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-30T06:34:37Z) - ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints [13.2441524021269]
ShapeShiftはテキスト誘導による画像から画像への変換タスクであり、入力された剛体形状の集合を重複しない構成に再構成する必要がある。
重複が発生した場合に,最小限の意味的コヒーレントな調整を施す,コンテンツ対応の衝突解決機構を導入する。
本手法は,空間的関係がテキストのプロンプトをはっきりと具現化した解釈可能な構成を与える。
論文 参考訳(メタデータ) (2025-03-18T20:48:58Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation [7.781425222538382]
DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
論文 参考訳(メタデータ) (2021-11-17T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。