論文の概要: New Ideas and Trends in Deep Multimodal Content Understanding: A Review
- arxiv url: http://arxiv.org/abs/2010.08189v1
- Date: Fri, 16 Oct 2020 06:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:24:46.568690
- Title: New Ideas and Trends in Deep Multimodal Content Understanding: A Review
- Title(参考訳): 深層マルチモーダルコンテンツ理解の新しい考え方と動向
- Authors: Wei Chen and Weiping Wang and Li Liu and Michael S. Lew
- Abstract要約: 本調査の焦点は、画像とテキストの2つのモーダルな深層学習の分析である。
本稿では, 自動エンコーダ, 生成逆数ネットなどを含む最近の多モード深層モデルと構造について検討する。
- 参考スコア(独自算出の注目度): 24.576001583494445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The focus of this survey is on the analysis of two modalities of multimodal
deep learning: image and text. Unlike classic reviews of deep learning where
monomodal image classifiers such as VGG, ResNet and Inception module are
central topics, this paper will examine recent multimodal deep models and
structures, including auto-encoders, generative adversarial nets and their
variants. These models go beyond the simple image classifiers in which they can
do uni-directional (e.g. image captioning, image generation) and bi-directional
(e.g. cross-modal retrieval, visual question answering) multimodal tasks.
Besides, we analyze two aspects of the challenge in terms of better content
understanding in deep multimodal applications. We then introduce current ideas
and trends in deep multimodal feature learning, such as feature embedding
approaches and objective function design, which are crucial in overcoming the
aforementioned challenges. Finally, we include several promising directions for
future research.
- Abstract(参考訳): 本研究の目的は,マルチモーダル深層学習の2つのモダリティ(画像とテキスト)の分析である。
本稿では,VGG,ResNet,Inceptionモジュールなどのモノモーダル画像分類器が中心となるディープラーニングの古典的レビューと異なり,自動エンコーダや生成逆数ネットなどを含む最近のマルチモーダル深層モデルと構造について検討する。
これらのモデルは、一方向(例えば、画像キャプション、画像生成)と双方向(例えば、クロスモーダル検索、視覚的質問応答)のマルチモーダルタスクを実行できる単純な画像分類器を越えている。
さらに,この課題の2つの側面を,深いマルチモーダルアプリケーションにおけるより良いコンテンツ理解の観点から分析する。
次に,上記の課題を克服する上で不可欠な特徴埋め込みアプローチや客観的関数設計など,マルチモーダル機能学習における現在の考え方とトレンドを紹介する。
最後に、今後の研究に期待できる方向をいくつか挙げる。
関連論文リスト
- Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multimodal Foundation Models: From Specialists to General-Purpose
Assistants [187.72038587829223]
研究のランドスケープには5つの中核的なトピックが含まれており、2つのクラスに分類されている。
対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文 参考訳(メタデータ) (2023-09-18T17:56:28Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。