論文の概要: Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2511.11780v1
- Date: Sat, 15 Nov 2025 03:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.306782
- Title: Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing
- Title(参考訳): Image-POSER:マルチエキスパート画像生成と編集のための反射RL
- Authors: Hossein Mohebbi, Mohammed Abdulrahman, Yanting Miao, Pascal Poupart, Suraj Kothawade,
- Abstract要約: Image-POSERは、事前訓練されたテキスト・ツー・イメージの専門家とイメージ・ツー・イメージの専門家の多様なレジストリをオーケストレーションする。
動的タスクの分解を通じて、エンドツーエンドのプロンプトを処理します。
人間の評価において常に好まれる。
- 参考スコア(独自算出の注目度): 16.943575863059607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image generation have produced strong single-shot models, yet no individual system reliably executes the long, compositional prompts typical of creative workflows. We introduce Image-POSER, a reflective reinforcement learning framework that (i) orchestrates a diverse registry of pretrained text-to-image and image-to-image experts, (ii) handles long-form prompts end-to-end through dynamic task decomposition, and (iii) supervises alignment at each step via structured feedback from a vision-language model critic. By casting image synthesis and editing as a Markov Decision Process, we learn non-trivial expert pipelines that adaptively combine strengths across models. Experiments show that Image-POSER outperforms baselines, including frontier models, across industry-standard and custom benchmarks in alignment, fidelity, and aesthetics, and is consistently preferred in human evaluations. These results highlight that reinforcement learning can endow AI systems with the capacity to autonomously decompose, reorder, and combine visual models, moving towards general-purpose visual assistants.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ生成の進歩は強力な単一ショットモデルを生み出しているが、創造的なワークフローに典型的な長大で構成的なプロンプトを確実に実行するシステムは存在しない。
反射型強化学習フレームワークであるImage-POSERを紹介する。
(i)事前訓練されたテキスト・ツー・イメージ及び画像・ツー・イメージの専門家の多様なレジストリを編成する。
(ii)動的タスク分解によるエンドツーエンドのプロンプトを処理し、
三 視覚言語モデル評論家からの構造化されたフィードバックにより各ステップのアライメントを監督する。
マルコフ決定プロセスとして画像合成と編集をキャストすることにより、モデル間の強度を適応的に結合する非自明なエキスパートパイプラインを学習する。
実験によると、Image-POSERは、業界標準およびカスタムベンチマークのアライメント、忠実度、美学において、フロンティアモデルを含むベースラインよりも優れており、人間の評価において一貫して好まれている。
これらの結果は、強化学習がAIシステムに自律的に分解し、再注文し、視覚モデルを組み合わせ、汎用的な視覚アシスタントへと移行させる能力を与える可能性があることを浮き彫りにしている。
関連論文リスト
- Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - Reinforced Multi-teacher Knowledge Distillation for Efficient General Image Forgery Detection and Localization [9.721443347546876]
画像偽造検出・局所化(IFDL)は、偽造画像が私たちの日常生活に潜在的な脅威をもたらす誤報を拡散する可能性があるため、極めて重要である。
以前の方法は、現実世界のシナリオで様々な偽造操作で処理された偽造画像を効果的に扱うのに苦労していた。
本稿では,エンコーダ-デコーダtextbfConvNeXt-textbfUperNetを中心に構築されたIFDLタスクのためのReinforced Multi-Teacher Knowledge Distillation (Re-MTKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-07T16:12:05Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Zero-Shot Image Harmonization with Generative Model Prior [22.984119094424056]
画像調和のためのゼロショットアプローチを提案し, 大量の合成合成画像への依存を克服することを目的とした。
人間の振る舞いにインスパイアされた、完全にモジュール化されたフレームワークを導入します。
さまざまなシーンやオブジェクトにまたがる説得力のある視覚的結果と、アプローチを検証するユーザスタディを提示します。
論文 参考訳(メタデータ) (2023-07-17T00:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。