論文の概要: Jodi: Unification of Visual Generation and Understanding via Joint Modeling
- arxiv url: http://arxiv.org/abs/2505.19084v1
- Date: Sun, 25 May 2025 10:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.889745
- Title: Jodi: Unification of Visual Generation and Understanding via Joint Modeling
- Title(参考訳): Jodi: 共同モデリングによる視覚生成と理解の統合
- Authors: Yifeng Xu, Zhenliang He, Meina Kan, Shiguang Shan, Xilin Chen,
- Abstract要約: 視覚生成と理解を統一する拡散フレームワークであるJodiを提案する。
Jodiは、ロールスイッチ機構とともに線形拡散変圧器上に構築されている。
我々は20万の高品質な画像を含むJoint-1.6Mデータセットを提示する。
- 参考スコア(独自算出の注目度): 72.2478082170191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual generation and understanding are two deeply interconnected aspects of human intelligence, yet they have been traditionally treated as separate tasks in machine learning. In this paper, we propose Jodi, a diffusion framework that unifies visual generation and understanding by jointly modeling the image domain and multiple label domains. Specifically, Jodi is built upon a linear diffusion transformer along with a role switch mechanism, which enables it to perform three particular types of tasks: (1) joint generation, where the model simultaneously generates images and multiple labels; (2) controllable generation, where images are generated conditioned on any combination of labels; and (3) image perception, where multiple labels can be predicted at once from a given image. Furthermore, we present the Joint-1.6M dataset, which contains 200,000 high-quality images collected from public sources, automatic labels for 7 visual domains, and LLM-generated captions. Extensive experiments demonstrate that Jodi excels in both generation and understanding tasks and exhibits strong extensibility to a wider range of visual domains. Code is available at https://github.com/VIPL-GENUN/Jodi.
- Abstract(参考訳): 視覚生成と理解は、人間の知性の2つの深い相互接続の側面であるが、伝統的に機械学習では別のタスクとして扱われてきた。
本稿では,画像領域と複数ラベル領域を共同でモデリングすることで,視覚生成と理解を統一する拡散フレームワークJodiを提案する。
具体的には、Jodiは、ロールスイッチ機構とともに線形拡散変換器上に構築されており、(1)モデルが画像と複数のラベルを同時に生成するジョイント生成、(2)ラベルの組み合わせで画像が条件付きで生成される制御可能な生成、(3)画像認識、(3)複数のラベルを与えられた画像から一度に予測できる3種類のタスクを実行することができる。
さらに,公開資料から収集した20万の高品質画像,7つの視覚領域の自動ラベル,LLM生成キャプションを含むJoint-1.6Mデータセットを提案する。
広範囲な実験により、Jodiは生成と理解の両方に優れ、幅広い視覚領域に強い拡張性を示すことが示された。
コードはhttps://github.com/VIPL-GENUN/Jodi.comで入手できる。
関連論文リスト
- ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。