論文の概要: Multimodal Image Synthesis and Editing: A Survey and Taxonomy
- arxiv url: http://arxiv.org/abs/2112.13592v5
- Date: Sat, 5 Aug 2023 00:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 01:26:51.250252
- Title: Multimodal Image Synthesis and Editing: A Survey and Taxonomy
- Title(参考訳): マルチモーダル画像合成と編集:調査と分類
- Authors: Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu,
Lingjie Liu, Adam Kortylewski, Christian Theobalt, Eric Xing
- Abstract要約: コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
- 参考スコア(独自算出の注目度): 103.97503395361035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As information exists in various modalities in real world, effective
interaction and fusion among multimodal information plays a key role for the
creation and perception of multimodal data in computer vision and deep learning
research. With superb power in modeling the interaction among multimodal
information, multimodal image synthesis and editing has become a hot research
topic in recent years. Instead of providing explicit guidance for network
training, multimodal guidance offers intuitive and flexible means for image
synthesis and editing. On the other hand, this field is also facing several
challenges in alignment of multimodal features, synthesis of high-resolution
images, faithful evaluation metrics, etc. In this survey, we comprehensively
contextualize the advance of the recent multimodal image synthesis and editing
and formulate taxonomies according to data modalities and model types. We start
with an introduction to different guidance modalities in image synthesis and
editing, and then describe multimodal image synthesis and editing approaches
extensively according to their model types. After that, we describe benchmark
datasets and evaluation metrics as well as corresponding experimental results.
Finally, we provide insights about the current research challenges and possible
directions for future research. A project associated with this survey is
available at https://github.com/fnzhan/MISE.
- Abstract(参考訳): 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。
マルチモーダル情報間の相互作用をモデル化するスーパーパワーにより、近年はマルチモーダル画像合成と編集がホットな研究トピックとなっている。
ネットワークトレーニングのための明確なガイダンスを提供する代わりに、マルチモーダルガイダンスは直感的で柔軟な画像合成と編集の手段を提供する。
一方で,マルチモーダルな特徴のアライメント,高解像度画像の合成,忠実な評価指標など,いくつかの課題に直面している。
本研究では,近年のマルチモーダル画像合成・編集・分類学の進歩を,データモダリティやモデルタイプに応じて包括的に把握する。
まず、画像合成と編集における異なるガイダンスモダリティの紹介から始め、そのモデルタイプに応じて多モード画像合成と編集アプローチを広範囲に記述する。
その後、ベンチマークデータセットと評価メトリクスおよび対応する実験結果について述べる。
最後に,現在の研究課題と今後の研究の方向性について考察する。
この調査に関連するプロジェクトはhttps://github.com/fnzhan/mise.comで入手できる。
関連論文リスト
- Multimodal Alignment and Fusion: A Survey [7.250878248686215]
マルチモーダル統合により、モデルの精度と適用性が改善される。
我々は既存のアライメントと融合の手法を体系的に分類し分析する。
この調査は、ソーシャルメディア分析、医療画像、感情認識といった分野の応用に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-26T02:10:27Z) - A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。