論文の概要: Dual-Process Image Generation
- arxiv url: http://arxiv.org/abs/2506.01955v1
- Date: Mon, 02 Jun 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.778466
- Title: Dual-Process Image Generation
- Title(参考訳): デュアルプロシージャ画像生成
- Authors: Grace Luo, Jonathan Granskog, Aleksander Holynski, Trevor Darrell,
- Abstract要約: 本稿では,フィードフォワード画像生成器が視覚言語モデルから新たなタスクを学習できるようにする2プロセス蒸留方式を提案する。
提案手法では,VLMを用いて生成した画像を評価し,この勾配を逆伝搬して画像生成器の重みを更新する。
本稿では,コモンセンス推論や視覚的プロンプトなど,様々な種類の制御信号に対するこの手法の適用例を紹介する。
- 参考スコア(独自算出の注目度): 90.59679096341473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior methods for controlling image generation are limited in their ability to be taught new tasks. In contrast, vision-language models, or VLMs, can learn tasks in-context and produce the correct outputs for a given input. We propose a dual-process distillation scheme that allows feed-forward image generators to learn new tasks from deliberative VLMs. Our scheme uses a VLM to rate the generated images and backpropagates this gradient to update the weights of the image generator. Our general framework enables a wide variety of new control tasks through the same text-and-image based interface. We showcase a handful of applications of this technique for different types of control signals, such as commonsense inferences and visual prompts. With our method, users can implement multimodal controls for properties such as color palette, line weight, horizon position, and relative depth within a matter of minutes. Project page: https://dual-process.github.io.
- Abstract(参考訳): 画像生成を制御する従来の方法は、新しいタスクを教える能力に制限がある。
対照的に、視覚言語モデル(VLM)はタスクをコンテキスト内で学習し、与えられた入力に対して正しい出力を生成することができる。
本稿では,フィードフォワード画像生成器が検討用VLMから新たなタスクを学習できるようにする2プロセス蒸留方式を提案する。
提案手法では,VLMを用いて生成した画像を評価し,この勾配を逆伝搬して画像生成器の重みを更新する。
我々の一般的なフレームワークは、同じテキスト・画像ベースのインターフェイスを通じて、様々な新しい制御タスクを可能にします。
本稿では,コモンセンス推論や視覚的プロンプトなど,様々な種類の制御信号に対するこの手法の適用例を紹介する。
提案手法により,色パレット,ラインウェイト,地平線位置,相対深度などの特性に対するマルチモーダル制御を数分で実装できる。
プロジェクトページ: https://dual-process.github.io
関連論文リスト
- MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance [32.70801495328193]
マルチモーダル画像生成と編集のための実践的なフレームワークMM2Latentを提案する。
画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。
提案手法は,近年のGAN法や拡散法を超越したマルチモーダル画像生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T09:21:07Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - ImageBind-LLM: Multi-modality Instruction Tuning [70.05191504511188]
ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。
画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
論文 参考訳(メタデータ) (2023-09-07T17:59:45Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - MultiMAE: Multi-modal Multi-task Masked Autoencoders [2.6763498831034043]
マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。