論文の概要: Multimodal Image Synthesis and Editing: A Survey and Taxonomy
- arxiv url: http://arxiv.org/abs/2112.13592v5
- Date: Sat, 5 Aug 2023 00:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 01:26:51.250252
- Title: Multimodal Image Synthesis and Editing: A Survey and Taxonomy
- Title(参考訳): マルチモーダル画像合成と編集:調査と分類
- Authors: Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu,
Lingjie Liu, Adam Kortylewski, Christian Theobalt, Eric Xing
- Abstract要約: コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
- 参考スコア(独自算出の注目度): 103.97503395361035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As information exists in various modalities in real world, effective
interaction and fusion among multimodal information plays a key role for the
creation and perception of multimodal data in computer vision and deep learning
research. With superb power in modeling the interaction among multimodal
information, multimodal image synthesis and editing has become a hot research
topic in recent years. Instead of providing explicit guidance for network
training, multimodal guidance offers intuitive and flexible means for image
synthesis and editing. On the other hand, this field is also facing several
challenges in alignment of multimodal features, synthesis of high-resolution
images, faithful evaluation metrics, etc. In this survey, we comprehensively
contextualize the advance of the recent multimodal image synthesis and editing
and formulate taxonomies according to data modalities and model types. We start
with an introduction to different guidance modalities in image synthesis and
editing, and then describe multimodal image synthesis and editing approaches
extensively according to their model types. After that, we describe benchmark
datasets and evaluation metrics as well as corresponding experimental results.
Finally, we provide insights about the current research challenges and possible
directions for future research. A project associated with this survey is
available at https://github.com/fnzhan/MISE.
- Abstract(参考訳): 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。
マルチモーダル情報間の相互作用をモデル化するスーパーパワーにより、近年はマルチモーダル画像合成と編集がホットな研究トピックとなっている。
ネットワークトレーニングのための明確なガイダンスを提供する代わりに、マルチモーダルガイダンスは直感的で柔軟な画像合成と編集の手段を提供する。
一方で,マルチモーダルな特徴のアライメント,高解像度画像の合成,忠実な評価指標など,いくつかの課題に直面している。
本研究では,近年のマルチモーダル画像合成・編集・分類学の進歩を,データモダリティやモデルタイプに応じて包括的に把握する。
まず、画像合成と編集における異なるガイダンスモダリティの紹介から始め、そのモデルタイプに応じて多モード画像合成と編集アプローチを広範囲に記述する。
その後、ベンチマークデータセットと評価メトリクスおよび対応する実験結果について述べる。
最後に,現在の研究課題と今後の研究の方向性について考察する。
この調査に関連するプロジェクトはhttps://github.com/fnzhan/mise.comで入手できる。
関連論文リスト
- NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。