論文の概要: New Ideas and Trends in Deep Multimodal Content Understanding: A Review
- arxiv url: http://arxiv.org/abs/2010.08189v1
- Date: Fri, 16 Oct 2020 06:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:24:46.568690
- Title: New Ideas and Trends in Deep Multimodal Content Understanding: A Review
- Title(参考訳): 深層マルチモーダルコンテンツ理解の新しい考え方と動向
- Authors: Wei Chen and Weiping Wang and Li Liu and Michael S. Lew
- Abstract要約: 本調査の焦点は、画像とテキストの2つのモーダルな深層学習の分析である。
本稿では, 自動エンコーダ, 生成逆数ネットなどを含む最近の多モード深層モデルと構造について検討する。
- 参考スコア(独自算出の注目度): 24.576001583494445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The focus of this survey is on the analysis of two modalities of multimodal
deep learning: image and text. Unlike classic reviews of deep learning where
monomodal image classifiers such as VGG, ResNet and Inception module are
central topics, this paper will examine recent multimodal deep models and
structures, including auto-encoders, generative adversarial nets and their
variants. These models go beyond the simple image classifiers in which they can
do uni-directional (e.g. image captioning, image generation) and bi-directional
(e.g. cross-modal retrieval, visual question answering) multimodal tasks.
Besides, we analyze two aspects of the challenge in terms of better content
understanding in deep multimodal applications. We then introduce current ideas
and trends in deep multimodal feature learning, such as feature embedding
approaches and objective function design, which are crucial in overcoming the
aforementioned challenges. Finally, we include several promising directions for
future research.
- Abstract(参考訳): 本研究の目的は,マルチモーダル深層学習の2つのモダリティ(画像とテキスト)の分析である。
本稿では,VGG,ResNet,Inceptionモジュールなどのモノモーダル画像分類器が中心となるディープラーニングの古典的レビューと異なり,自動エンコーダや生成逆数ネットなどを含む最近のマルチモーダル深層モデルと構造について検討する。
これらのモデルは、一方向(例えば、画像キャプション、画像生成)と双方向(例えば、クロスモーダル検索、視覚的質問応答)のマルチモーダルタスクを実行できる単純な画像分類器を越えている。
さらに,この課題の2つの側面を,深いマルチモーダルアプリケーションにおけるより良いコンテンツ理解の観点から分析する。
次に,上記の課題を克服する上で不可欠な特徴埋め込みアプローチや客観的関数設計など,マルチモーダル機能学習における現在の考え方とトレンドを紹介する。
最後に、今後の研究に期待できる方向をいくつか挙げる。
関連論文リスト
- Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multimodal Foundation Models: From Specialists to General-Purpose
Assistants [187.72038587829223]
研究のランドスケープには5つの中核的なトピックが含まれており、2つのクラスに分類されている。
対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文 参考訳(メタデータ) (2023-09-18T17:56:28Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。