論文の概要: Image Anything: Towards Reasoning-coherent and Training-free Multi-modal
Image Generation
- arxiv url: http://arxiv.org/abs/2401.17664v1
- Date: Wed, 31 Jan 2024 08:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:16:36.781343
- Title: Image Anything: Towards Reasoning-coherent and Training-free Multi-modal
Image Generation
- Title(参考訳): イメージ・ナッシング:推論・コヒーレント・トレーニングフリー・マルチモーダル画像生成に向けて
- Authors: Yuanhuiyi Lyu, Xu Zheng, Lin Wang
- Abstract要約: ImgAnyは、人間の推論を模倣し高品質な画像を生成する、新しいエンドツーエンドのマルチモーダル生成モデルである。
本手法は, 7つのモダリティの組み合わせを効率よく, 柔軟に行うための最初の試みである。
- 参考スコア(独自算出の注目度): 9.573188010530217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multifaceted nature of human perception and comprehension indicates that,
when we think, our body can naturally take any combination of senses, a.k.a.,
modalities and form a beautiful picture in our brain. For example, when we see
a cattery and simultaneously perceive the cat's purring sound, our brain can
construct a picture of a cat in the cattery. Intuitively, generative AI models
should hold the versatility of humans and be capable of generating images from
any combination of modalities efficiently and collaboratively. This paper
presents ImgAny, a novel end-to-end multi-modal generative model that can mimic
human reasoning and generate high-quality images. Our method serves as the
first attempt in its capacity of efficiently and flexibly taking any
combination of seven modalities, ranging from language, audio to vision
modalities, including image, point cloud, thermal, depth, and event data. Our
key idea is inspired by human-level cognitive processes and involves the
integration and harmonization of multiple input modalities at both the entity
and attribute levels without specific tuning across modalities. Accordingly,
our method brings two novel training-free technical branches: 1) Entity Fusion
Branch ensures the coherence between inputs and outputs. It extracts entity
features from the multi-modal representations powered by our specially
constructed entity knowledge graph; 2) Attribute Fusion Branch adeptly
preserves and processes the attributes. It efficiently amalgamates distinct
attributes from diverse input modalities via our proposed attribute knowledge
graph. Lastly, the entity and attribute features are adaptively fused as the
conditional inputs to the pre-trained Stable Diffusion model for image
generation. Extensive experiments under diverse modality combinations
demonstrate its exceptional capability for visual content creation.
- Abstract(参考訳): 人間の知覚と理解の多面的な性質は、私たちの身体が自然に感覚、つまりモダリティを組み合わせ、私たちの脳に美しい絵を作ることができることを示している。
例えば、キャタリーを見て、同時に猫の鳴き声を知覚すると、私たちの脳はキャタリーに猫の写真を作ることができます。
直感的には、生成型AIモデルは人間の万能性を保ち、モダリティの組み合わせから画像を効率よく協調的に生成することができる。
本稿では,人間の推論を模倣し,高品質な画像を生成する,新しいエンドツーエンドマルチモーダル生成モデルImgAnyを提案する。
本手法は, 画像, 点雲, 熱, 深度, イベントデータなど, 言語, 音声, 視覚の7つのモードの組み合わせを, 効率的かつ柔軟に行うための最初の試みである。
私たちのキーとなるアイデアは、人間レベルの認知プロセスにインスパイアされ、エンティティレベルと属性レベルの両方における複数の入力モダリティの統合と調和を、特定のチューニングなしに行います。
そこで,本手法は2つの新しい訓練不要技術分岐をもたらす。
1)エンティティフュージョンブランチは、入力と出力のコヒーレンスを保証する。
特別に構築したエンティティ知識グラフを利用したマルチモーダル表現からエンティティ特徴を抽出する。
2)属性の保存及び処理を行う属性融合ブランチ。
提案する属性知識グラフを用いて,多様な入力モダリティから異なる属性を効率的に融合する。
最後に、画像生成のための予め訓練された安定拡散モデルに対する条件入力として、エンティティと属性の特徴を適応的に融合する。
多様なモダリティの組み合わせによる広範囲な実験は、視覚コンテンツ作成の特別な能力を示している。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Infrared and Visible Image Fusion with Hierarchical Human Perception [45.63854455306689]
画像融合法として階層型パーセプションフュージョン(HPFusion)を導入する。
画像ペアを見る際に人間が注目する複数の質問を提案し,その回答は画像に応じてLarge Vision-Language Modelを介して生成される。
解答のテキストは融合ネットワークにエンコードされ、最適化はまた、解答された画像の人間の意味的分布を、ソース画像とよりよく似たものに導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T03:47:26Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z) - AE-Net: Autonomous Evolution Image Fusion Method Inspired by Human
Cognitive Mechanism [34.57055312296812]
AE-Netで表される自律的な進化能力を持つ頑健で汎用的な画像融合法を提案する。
人間の脳の認知過程をシミュレートする複数の画像融合法の協調最適化により、教師なし学習画像融合タスクを半教師付き画像融合タスクまたは教師付き画像融合タスクに変換することができる。
画像融合法は, 画像融合タスクと画像融合タスクを効果的に統合し, 異なるデータセット間のデータ分布の違いを効果的に克服することができる。
論文 参考訳(メタデータ) (2020-07-17T05:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。