論文の概要: DreamO: A Unified Framework for Image Customization
- arxiv url: http://arxiv.org/abs/2504.16915v1
- Date: Wed, 23 Apr 2025 17:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 14:58:45.500782
- Title: DreamO: A Unified Framework for Image Customization
- Title(参考訳): DreamO:イメージカスタマイズのための統一フレームワーク
- Authors: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu,
- Abstract要約: 複数の条件をシームレスに統合しながら、幅広いタスクをサポートするために設計された画像カスタマイズフレームワークであるDreamOを紹介する。
具体的には、DreamOは拡散変換器(DiT)フレームワークを使用して、異なるタイプの入力を均一に処理する。
ベースライン整合性を確立するための限られたデータを伴う単純なタスクに焦点を当てた初期段階、カスタマイズ能力を包括的に強化するためのフルスケールトレーニング段階、低品質データによって導入された品質バイアスを補正するための最終品質アライメント段階の3段階からなるプログレッシブトレーニング戦略を採用する。
- 参考スコア(独自算出の注目度): 21.957488214707343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.
- Abstract(参考訳): 近年,画像のカスタマイズ(アイデンティティ,主題,スタイル,背景など)に関する広範な研究が,大規模生成モデルにおいて強力なカスタマイズ能力を示している。
しかし、ほとんどのアプローチは特定のタスクのために設計されており、異なる種類の条件を組み合わせるために一般化性を制限する。
イメージのカスタマイズのための統一されたフレームワークの開発は、依然としてオープンな課題である。
本稿では,複数の条件のシームレスな統合を図りながら,幅広いタスクをサポートするために設計された画像カスタマイズフレームワークであるDreamOを提案する。
具体的には、DreamOは拡散変換器(DiT)フレームワークを使用して、異なるタイプの入力を均一に処理する。
トレーニング中、さまざまなカスタマイズタスクを含む大規模トレーニングデータセットを構築し、参照画像からの関連情報の正確なクエリを容易にする機能ルーティング制約を導入する。
さらに、特定のプレースホルダーと特定の位置の条件を関連付けるプレースホルダー戦略を設計し、生成した結果の条件の配置を制御できるようにする。
さらに、ベースライン整合性を確立するためのデータ制限を伴う単純なタスクに焦点を当てた初期ステージ、カスタマイズ能力を包括的に強化するフルスケールトレーニングステージ、低品質データによって導入された品質バイアスを補正するための最終品質アライメントステージの3段階からなるプログレッシブトレーニング戦略を採用する。
広汎な実験により,提案したDreamOは,高品質な画像カスタマイズタスクを効果的に実行し,様々な種類の制御条件を柔軟に統合できることが実証された。
関連論文リスト
- VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks [23.041812897803034]
任意の種類の合成データを生成可能な統合フレームワークであるAny Synthを提案する。
我々は、Few-shot Object Detection、クロスドメインオブジェクト検出、Zero-shot Image Retrieval、Multi-modal Image Perception and Groundingなど、さまざまなタスクでフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2024-11-24T04:49:07Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。