論文の概要: Multimodal Image Synthesis and Editing: A Survey
- arxiv url: http://arxiv.org/abs/2112.13592v1
- Date: Mon, 27 Dec 2021 10:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 22:14:33.304711
- Title: Multimodal Image Synthesis and Editing: A Survey
- Title(参考訳): マルチモーダル画像合成と編集:調査
- Authors: Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu
- Abstract要約: マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。
本稿では、GAN(Generative Adversarial Networks)、GAN Inversion、Transformer、NeRFやDiffusionモデルなどを含む詳細なフレームワークを用いたマルチモーダル画像合成と編集手法について述べる。
- 参考スコア(独自算出の注目度): 41.62470856144796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As information exists in various modalities in real world, effective
interaction and fusion among multimodal information plays a key role for the
creation and perception of multimodal data in computer vision and deep learning
research. With superb power in modelling the interaction among multimodal
information, multimodal image synthesis and editing have become a hot research
topic in recent years. Different from traditional visual guidance which
provides explicit clues, multimodal guidance offers intuitive and flexible
means in image synthesis and editing. On the other hand, this field is also
facing several challenges in alignment of features with inherent modality gaps,
synthesis of high-resolution images, faithful evaluation metrics, etc. In this
survey, we comprehensively contextualize the advance of the recent multimodal
image synthesis \& editing and formulate taxonomies according to data modality
and model architectures. We start with an introduction to different types of
guidance modalities in image synthesis and editing. We then describe multimodal
image synthesis and editing approaches extensively with detailed frameworks
including Generative Adversarial Networks (GANs), GAN Inversion, Transformers,
and other methods such as NeRF and Diffusion models. This is followed by a
comprehensive description of benchmark datasets and corresponding evaluation
metrics as widely adopted in multimodal image synthesis and editing, as well as
detailed comparisons of different synthesis methods with analysis of respective
advantages and limitations. Finally, we provide insights into the current
research challenges and possible future research directions. A project
associated with this survey is available at https://github.com/fnzhan/MISE
- Abstract(参考訳): 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。
近年,マルチモーダル情報間の相互作用をモデル化するスーパーパワーによって,マルチモーダル画像合成と編集が注目されている。
明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。
一方で、本分野は、固有のモダリティギャップ、高解像度画像の合成、忠実な評価指標など、特徴のアライメントに関するいくつかの課題にも直面している。
本研究では,最近のマルチモーダル画像合成の進歩を包括的に理解し,データモダリティとモデルアーキテクチャによる分類学の定式化を行う。
まず、画像合成と編集における様々な種類のガイダンスモダリティの導入から始める。
次に,多モード画像合成と編集手法について,gan(generative adversarial network),ganインバージョン,トランスフォーマー,およびnrfや拡散モデルなどの他の手法など,詳細なフレームワークを用いて詳細に述べる。
続いて、マルチモーダル画像合成と編集に広く採用されているベンチマークデータセットと対応する評価指標の包括的な説明と、それぞれの利点と限界の分析と異なる合成方法の詳細な比較が行われる。
最後に,現在の研究課題と今後の研究方向性について考察する。
この調査に関連するプロジェクトはhttps://github.com/fnzhan/miseで入手できる。
関連論文リスト
- A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。