Fugu-MT 論文翻訳(概要): DreamOmni: Unified Image Generation and Editing

論文の概要: DreamOmni: Unified Image Generation and Editing

arxiv url: http://arxiv.org/abs/2412.17098v1
Date: Sun, 22 Dec 2024 17:17:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.25305
Title: DreamOmni: Unified Image Generation and Editing
Title（参考訳）: DreamOmni:統一された画像生成と編集
Authors: Bin Xia, Yuechen Zhang, Jingyao Li, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia,
Abstract要約: 本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。このコラボレーションは、編集性能を大幅に向上させる。
参考スコア（独自算出の注目度）: 51.45871494724542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Currently, the success of large language models (LLMs) illustrates that a unified multitasking approach can significantly enhance model usability, streamline deployment, and foster synergistic benefits across different tasks. However, in computer vision, while text-to-image (T2I) models have significantly improved generation quality through scaling up, their framework design did not initially consider how to unify with downstream tasks, such as various types of editing. To address this, we introduce DreamOmni, a unified model for image generation and editing. We begin by analyzing existing frameworks and the requirements of downstream tasks, proposing a unified framework that integrates both T2I models and various editing tasks. Furthermore, another key challenge is the efficient creation of high-quality editing data, particularly for instruction-based and drag-based editing. To this end, we develop a synthetic data pipeline using sticker-like elements to synthesize accurate, high-quality datasets efficiently, which enables editing data scaling up for unified model training. For training, DreamOmni jointly trains T2I generation and downstream tasks. T2I training enhances the model's understanding of specific concepts and improves generation quality, while editing training helps the model grasp the nuances of the editing task. This collaboration significantly boosts editing performance. Extensive experiments confirm the effectiveness of DreamOmni. The code and model will be released.
Abstract（参考訳）: 現在、大規模言語モデル(LLM)の成功は、統一マルチタスクアプローチがモデルのユーザビリティを著しく向上させ、スムーズな展開を可能にし、異なるタスク間でシナジスティックなメリットを育むことを示している。しかし、コンピュータビジョンでは、テキスト・トゥ・イメージ(T2I)モデルはスケールアップによって生成品質を著しく向上させたが、そのフレームワーク設計は当初、様々な種類の編集のような下流タスクと一体化する方法を考えていなかった。そこで本稿では,画像生成と編集の統一モデルであるDreamOmniを紹介する。まず、既存のフレームワークと下流タスクの要件を分析し、T2Iモデルと様々な編集タスクを統合した統合フレームワークを提案する。さらに、他の重要な課題は、特に命令ベースおよびドラッグベースの編集において、高品質な編集データの効率的な作成である。この目的のために、ステッカーのような要素を用いた合成データパイプラインを開発し、精度の高い高品質なデータセットを効率的に合成し、統一モデルトレーニングのためのデータのスケールアップを可能にする。訓練には、DreamOmniはT2I世代と下流タスクを共同で訓練する。 T2Iトレーニングは、特定の概念に対するモデルの理解を高め、生成品質を向上させると同時に、編集作業のニュアンスをモデルが把握するのに役立つ。このコラボレーションは、編集性能を大幅に向上させる。大規模な実験でDreamOmniの有効性が確認された。コードとモデルはリリースされる。

関連論文リスト

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models [26.762431651154607]
テキストと視覚の両方を各キー層で修正するエディタであるDualEditを提案する。我々は、複数のVLMバックボーンとベンチマークデータセットにわたるDualEditを評価し、最先端のVLM編集ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-16T16:04:16Z)
ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。 ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-26T17:53:33Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳（メタデータ） (2025-03-16T21:11:25Z)
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文参考訳（メタデータ） (2025-03-13T14:31:52Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文参考訳（メタデータ） (2024-12-08T22:29:56Z)
SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。 SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文参考訳（メタデータ） (2024-11-28T08:07:32Z)
FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは生成タスクにおいて優れた性能を示しており、画像編集の理想的な候補となっている。本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。推論の4ステップだけで、FunEditorは既存の一般的なメソッドよりも5～24倍の推論スピードアップを達成する。
論文参考訳（メタデータ） (2024-08-16T02:33:55Z)
Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。 4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文参考訳（メタデータ） (2024-07-18T03:55:33Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文参考訳（メタデータ） (2024-01-04T18:59:24Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
CoditT5: Pretraining for Source Code and Natural Language Editing [34.77621217370665]
CoditT5は、大量のソースコードと自然言語コメントで事前訓練された、ソフトウェア関連の編集タスクのための大規模な言語モデルである。コメント更新、バグ修正、自動コードレビューなど、さまざまなダウンストリーム編集タスクを微調整します。
論文参考訳（メタデータ） (2022-08-10T16:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。