論文の概要: ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2412.12571v1
- Date: Tue, 17 Dec 2024 06:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:51.451687
- Title: ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers
- Title(参考訳): ChatDiT: 拡散変換器を用いたタスク非依存のフリーフォームチャットのためのトレーニングフリーベースライン
- Authors: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou,
- Abstract要約: ChatDiTはゼロショットで汎用的でインタラクティブなビジュアル生成フレームワークである。
ユーザはChatDiTと対話して、インターリーブされたテキストイメージの記事を作成したり、複数ページの絵本を作成したり、画像を編集したり、IPデリバティブを設計したり、文字設計の設定を開発することができる。
- 参考スコア(独自算出の注目度): 48.65033477775636
- License:
- Abstract: Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the inherent in-context generation capabilities of pretrained diffusion transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks with minimal or no architectural modifications. These capabilities are unlocked by concatenating self-attention tokens across multiple input and target images, combined with grouped and masked generation pipelines. Building upon this foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive visual generation framework that leverages pretrained diffusion transformers in their original form, requiring no additional tuning, adapters, or modifications. Users can interact with ChatDiT to create interleaved text-image articles, multi-page picture books, edit images, design IP derivatives, or develop character design settings, all through free-form natural language across one or more conversational rounds. At its core, ChatDiT employs a multi-agent system comprising three key components: an Instruction-Parsing agent that interprets user-uploaded images and instructions, a Strategy-Planning agent that devises single-step or multi-step generation actions, and an Execution agent that performs these actions using an in-context toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with diverse instructions and varying numbers of input and target images. Despite its simplicity and training-free approach, ChatDiT surpasses all competitors, including those specifically designed and trained on extensive multi-task datasets. We further identify key limitations of pretrained DiTs in zero-shot adapting to tasks. We release all code, agents, results, and intermediate outputs to facilitate further research at https://github.com/ali-vilab/ChatDiT
- Abstract(参考訳): 近年のarXiv:2410.15027 arXiv:2410.23775は、事前訓練された拡散トランスフォーマー(DiT)のコンテキスト内生成機能を強調しており、最小または全くアーキテクチャ変更することなく、多様な視覚タスクにシームレスに適応することができる。
これらの機能は、複数の入力およびターゲットイメージにまたがる自己アテンショントークンと、グループ化およびマスク付き生成パイプラインを組み合わせることで、アンロックされる。
この基盤の上に構築されたChatDiTは、ゼロショットで汎用的でインタラクティブなビジュアル生成フレームワークで、事前学習された拡散トランスフォーマーを元の形式で活用し、追加のチューニング、アダプタ、修正を必要としない。
ユーザはChatDiTと対話して、インターリーブされたテキストイメージの記事を作成したり、複数ページの絵本を作成したり、画像を編集したり、IPデリバティブを設計したり、文字設計の設定を開発することができる。
ChatDiTの中核となるのは、3つの重要なコンポーネントからなるマルチエージェントシステムである: ユーザアップロードされたイメージと命令を解釈するインストラクション・パーシングエージェント、単一ステップまたは複数ステップの生成アクションを考案するストラテジー・プランニングエージェント、拡散トランスフォーマーのテキスト内ツールキットを使用してこれらのアクションを実行する実行エージェントである。
IDEA-Bench arXiv:2412.11767でChatDiTを徹底的に評価した。
ChatDiTはシンプルで、トレーニングなしのアプローチだが、幅広いマルチタスクデータセットで特別に設計、訓練されたものを含む、すべての競合製品を上回っている。
さらに、タスクに適応するゼロショットにおける事前訓練されたDiTの鍵となる制限を同定する。
https://github.com/ali-vilab/ChatDiTでさらなる研究を促進するために、すべてのコード、エージェント、結果、中間出力をリリースします。
関連論文リスト
- Group Diffusion Transformers are Unsupervised Multitask Learners [49.288489286276146]
GDT(Group Diffusion Transformers)は、多様な視覚生成タスクを統合する新しいフレームワークである。
GDTは、画像間で自己注意トークンを連結することにより、最小限のアーキテクチャ変更で拡散トランスフォーマーを構築する。
我々は、30の視覚生成タスクに200以上の命令を割り当てたベンチマークでGDTを評価した。
論文 参考訳(メタデータ) (2024-10-19T07:53:15Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling [11.569380762858815]
VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
論文 参考訳(メタデータ) (2021-12-10T17:37:26Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Unifying Multimodal Transformer for Bi-directional Image and Text
Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。
双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T06:01:24Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。