論文の概要: Group Diffusion Transformers are Unsupervised Multitask Learners
- arxiv url: http://arxiv.org/abs/2410.15027v1
- Date: Sat, 19 Oct 2024 07:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:49.490429
- Title: Group Diffusion Transformers are Unsupervised Multitask Learners
- Title(参考訳): 群拡散変換器は教師なしマルチタスク学習器である
- Authors: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Huanzhang Dou, Yupeng Shi, Yutong Feng, Chen Liang, Yu Liu, Jingren Zhou,
- Abstract要約: GDT(Group Diffusion Transformers)は、多様な視覚生成タスクを統合する新しいフレームワークである。
GDTは、画像間で自己注意トークンを連結することにより、最小限のアーキテクチャ変更で拡散トランスフォーマーを構築する。
我々は、30の視覚生成タスクに200以上の命令を割り当てたベンチマークでGDTを評価した。
- 参考スコア(独自算出の注目度): 49.288489286276146
- License:
- Abstract: While large language models (LLMs) have revolutionized natural language processing with their task-agnostic capabilities, visual generation tasks such as image translation, style transfer, and character customization still rely heavily on supervised, task-specific datasets. In this work, we introduce Group Diffusion Transformers (GDTs), a novel framework that unifies diverse visual generation tasks by redefining them as a group generation problem. In this approach, a set of related images is generated simultaneously, optionally conditioned on a subset of the group. GDTs build upon diffusion transformers with minimal architectural modifications by concatenating self-attention tokens across images. This allows the model to implicitly capture cross-image relationships (e.g., identities, styles, layouts, surroundings, and color schemes) through caption-based correlations. Our design enables scalable, unsupervised, and task-agnostic pretraining using extensive collections of image groups sourced from multimodal internet articles, image galleries, and video frames. We evaluate GDTs on a comprehensive benchmark featuring over 200 instructions across 30 distinct visual generation tasks, including picture book creation, font design, style transfer, sketching, colorization, drawing sequence generation, and character customization. Our models achieve competitive zero-shot performance without any additional fine-tuning or gradient updates. Furthermore, ablation studies confirm the effectiveness of key components such as data scaling, group size, and model design. These results demonstrate the potential of GDTs as scalable, general-purpose visual generation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はタスクに依存しない機能で自然言語処理に革命をもたらしたが、画像翻訳、スタイル転送、文字のカスタマイズといった視覚生成タスクは依然としてタスク固有のデータセットに大きく依存している。
本稿では,グループ拡散変換器(GDT)を紹介する。GDTは,グループ生成問題として再定義することで,多様な視覚生成タスクを統一する新しいフレームワークである。
このアプローチでは、グループのサブセットに任意に条件付きで、関連する画像のセットを同時に生成する。
GDTは、画像間で自己注意トークンを連結することにより、最小限のアーキテクチャ変更で拡散トランスフォーマーを構築する。
これにより、キャプションベースの相関を通じて、モデルが暗黙的にクロスイメージ関係(アイデンティティ、スタイル、レイアウト、周囲、色スキームなど)をキャプチャすることが可能になる。
本設計では,マルチモーダルなインターネット記事,画像ギャラリー,ビデオフレームから得られた画像群を用いて,スケーラブルで教師なし,タスクに依存しない事前学習を可能にする。
GDTは、図書作成、フォントデザイン、スタイル転送、スケッチ、彩色、描画シーケンス生成、文字カスタマイズなど、30の異なる視覚的タスクに200以上の命令を含む総合的なベンチマークで評価する。
我々のモデルは、追加の微調整や勾配更新なしに、競争力のあるゼロショット性能を達成する。
さらに,データスケーリングやグループサイズ,モデル設計といった重要なコンポーネントの有効性についても検討した。
これらの結果は、GDTをスケーラブルで汎用的な視覚生成システムとしての可能性を示している。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。