論文の概要: DreamOmni3: Scribble-based Editing and Generation
- arxiv url: http://arxiv.org/abs/2512.22525v1
- Date: Sat, 27 Dec 2025 09:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.097083
- Title: DreamOmni3: Scribble-based Editing and Generation
- Title(参考訳): DreamOmni3: Scribbleベースの編集と生成
- Authors: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia,
- Abstract要約: 私たちはDream Omni3を紹介し、データ生成とフレームワーク設計という2つの課題に取り組みます。
スクリブル・インストラクション・ベースの編集、スクリブル・マルチモーダル・インストラクション・ベース・ジェネレーション、およびドゥードル生成の4つのタスクを定義する。
フレームワークでは,バイナリマスクの代わりに,オリジナル画像とスクリブル画像の両方をモデルに入力するジョイント入力方式を提案する。
- 参考スコア(独自算出の注目度): 72.52583595391944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.
- Abstract(参考訳): 最近、統一された生成および編集モデルは、その顕著な性能で顕著な成功を収めた。
これらのモデルは、主に命令ベースの編集と生成のためのテキストプロンプトに依存しているが、言語は、ユーザーが意図した編集場所や細かい視覚的詳細をキャプチャできないことが多い。
そこで本研究では,ユーザテキスト,画像,フリーハンドスケッチを組み合わせたグラフィカルユーザインタフェース(GUI)上で,よりフレキシブルな編集と生成を実現するための2つのタスクを提案する。
私たちはDreamOmni3を紹介し、データ生成とフレームワーク設計という2つの課題に対処します。
データ合成パイプラインには、スクリブルベースの編集と生成という2つの部分が含まれています。
スクリブルとインストラクションベースの編集、スクリブルとマルチモーダルのインストラクションベースの編集、画像融合、およびドゥードル編集の4つのタスクを定義する。
DreamOmni2データセットに基づいて、編集可能な領域を抽出し、手描きの箱、円、うどん、または収穫した画像をオーバーレイしてトレーニングデータを構築する。
スクリブルと命令ベースの生成、スクリブルとマルチモーダルの命令ベースの生成、およびDoodle生成の3つのタスクを定義し、同様のデータ生成パイプラインに従う。
本フレームワークでは,複数のスクリブルや画像,命令を含む複雑な編集に苦労するバイナリマスクの代わりに,原画像とスクリブル画像の両方をモデルに入力し,異なる色で領域を識別し,処理を簡略化するジョイント入力方式を提案する。
同じインデックスと位置エンコーディングを両方の画像に適用することにより、正確な編集を維持しながら、スクリブル領域を正確にローカライズすることができる。
最後に,これらの課題に対する総合的なベンチマークを構築し,さらなる研究を促進する。
実験の結果、DreamOmni3は優れたパフォーマンスを達成し、モデルとコードは一般公開されることが示されている。
関連論文リスト
- DreamOmni2: Multimodal Instruction-based Editing and Generation [77.997848231822]
マルチモーダルな命令ベースの編集と生成という2つの新しいタスクを提案する。
これらのタスクはテキストとイメージの命令の両方をサポートし、具体的概念と抽象概念の両方を含むようにスコープを拡張する。
データ合成パイプラインは,(1)抽象的概念と具体的概念の両方の抽出データを作成するための特徴混合法,(2)編集と抽出モデルを用いたマルチモーダル命令ベースの編集訓練データを生成すること,(3)抽出モデルを適用してマルチモーダル命令ベースの編集のためのトレーニングデータを生成すること,の3つのステップで構成されている。
論文 参考訳(メタデータ) (2025-10-08T06:07:14Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - DreamVE: Unified Instruction-based Image and Video Editing [48.59380808274814]
本稿では,DreamVEを紹介した。DreamVEは命令ベースの画像編集とビデオ編集の統一モデルである。
本稿では,まず画像編集,次にビデオ編集という2段階の学習戦略を提案する。
我々はコラージュベースおよび生成モデルベースデータ合成を含む包括的トレーニングデータパイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-08T07:20:30Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。
私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文 参考訳(メタデータ) (2024-07-07T06:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。