論文の概要: WeGen: A Unified Model for Interactive Multimodal Generation as We Chat
- arxiv url: http://arxiv.org/abs/2503.01115v2
- Date: Mon, 10 Mar 2025 02:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:21.296770
- Title: WeGen: A Unified Model for Interactive Multimodal Generation as We Chat
- Title(参考訳): WeGen: 対話型マルチモーダル生成のための統一モデル
- Authors: Zhipeng Huang, Shaobin Zhuang, Canmiao Fu, Binxin Yang, Ying Zhang, Chong Sun, Zhizheng Zhang, Yali Wang, Chen Li, Zheng-Jun Zha,
- Abstract要約: マルチモーダル生成と理解を統合するモデルWeGenを紹介する。
より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。
様々なビジュアル生成ベンチマークにおいて,最先端性能が達成されていることを示す。
- 参考スコア(独自算出の注目度): 51.78489661490396
- License:
- Abstract: Existing multimodal generative models fall short as qualified design copilots, as they often struggle to generate imaginative outputs once instructions are less detailed or lack the ability to maintain consistency with the provided references. In this work, we introduce WeGen, a model that unifies multimodal generation and understanding, and promotes their interplay in iterative generation. It can generate diverse results with high creativity for less detailed instructions. And it can progressively refine prior generation results or integrating specific contents from references following the instructions in its chat with users. During this process, it is capable of preserving consistency in the parts that the user is already satisfied with. To this end, we curate a large-scale dataset, extracted from Internet videos, containing rich object dynamics and auto-labeled dynamics descriptions by advanced foundation models to date. These two information are interleaved into a single sequence to enable WeGen to learn consistency-aware generation where the specified dynamics are generated while the consistency of unspecified content is preserved aligned with instructions. Besides, we introduce a prompt self-rewriting mechanism to enhance generation diversity. Extensive experiments demonstrate the effectiveness of unifying multimodal understanding and generation in WeGen and show it achieves state-of-the-art performance across various visual generation benchmarks. These also demonstrate the potential of WeGen as a user-friendly design copilot as desired. The code and models will be available at https://github.com/hzphzp/WeGen.
- Abstract(参考訳): 既存のマルチモーダル生成モデルは、与えられた参照との整合性を欠いたり、指示が詳細でない場合、想像的な出力を生成するのにしばしば苦労するため、適度な設計コピロとして不足する。
本稿では,マルチモーダル生成と理解を統一し,反復生成における相互作用を促進するモデルWeGenを紹介する。
より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。
また、ユーザーとのチャットで、事前生成結果を徐々に改善したり、指示に従って参照から特定のコンテンツを統合することもできる。
このプロセスでは、ユーザがすでに満足している部分の一貫性を維持することができる。
この目的のために,インターネットビデオから抽出した大規模データセットをキュレートし,高度な基礎モデルによるリッチオブジェクトダイナミクスと自動ラベル付きダイナミックス記述を含む。
これらの2つの情報は単一のシーケンスにインターリーブされ、WeGenは、特定されたコンテンツの一貫性を命令に一致させながら、指定されたダイナミクスが生成される一貫性を意識した生成を学習することができる。
さらに、生成多様性を高めるために、迅速な自己書き換え機構を導入する。
大規模な実験は、WeGenにおけるマルチモーダル理解と生成の統一の有効性を実証し、様々なビジュアル生成ベンチマークで最先端のパフォーマンスを達成することを示す。
これらはまた、WeGenがユーザーフレンドリーなデザインパトロールとして望まれる可能性を示している。
コードとモデルはhttps://github.com/hzphzp/WeGen.comから入手できる。
関連論文リスト
- Interactive Scene Authoring with Specialized Generative Primitives [25.378818867764323]
Specialized Generative Primitivesは、熟練していないユーザーが高品質な3Dシーンを作成できる生成フレームワークである。
各プリミティブは、実世界から1つの例の分布をキャプチャする効率的な生成モデルである。
実世界のシーンから様々なプリミティブを抽出し、3Dアセットやシーンを数分で作成できるように制御するインタラクティブセッションを紹介する。
論文 参考訳(メタデータ) (2024-12-20T04:39:50Z) - Recommendation with Generative Models [35.029116616023586]
生成モデルは、統計分布から学習し、サンプリングすることで、データの新しいインスタンスを作成することができるAIモデルである。
これらのモデルは、画像生成、テキスト合成、音楽合成など、様々な領域に応用されている。
レコメンデーションシステムでは、Gen-RecSysと呼ばれる生成モデルは、レコメンデーションの正確性と多様性を改善する。
論文 参考訳(メタデータ) (2024-09-18T18:29:15Z) - Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [24.58881004205822]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。