論文の概要: DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality
Attention
- arxiv url: http://arxiv.org/abs/2209.03126v1
- Date: Wed, 7 Sep 2022 13:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 11:56:15.747909
- Title: DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality
Attention
- Title(参考訳): DM$^2$S$^2$:階層的モダリティを考慮した深層多モード列集合
- Authors: Shunsuke Kitada, Yuki Iwazaki, Riku Togashi, Hitoshi Iyatomi
- Abstract要約: マルチモーダルデータから重要な情報を抽出する方法は、ミッドフュージョンアーキテクチャに依存している。
本稿では,マルチモーダル入力を深層マルチモーダルシーケンスセットの集合として考える新しい概念を提案する。
我々の概念は、以前のセットレベルモデルに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 8.382710169577447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is increasing interest in the use of multimodal data in various web
applications, such as digital advertising and e-commerce. Typical methods for
extracting important information from multimodal data rely on a mid-fusion
architecture that combines the feature representations from multiple encoders.
However, as the number of modalities increases, several potential problems with
the mid-fusion model structure arise, such as an increase in the dimensionality
of the concatenated multimodal features and missing modalities. To address
these problems, we propose a new concept that considers multimodal inputs as a
set of sequences, namely, deep multimodal sequence sets (DM$^2$S$^2$). Our
set-aware concept consists of three components that capture the relationships
among multiple modalities: (a) a BERT-based encoder to handle the inter- and
intra-order of elements in the sequences, (b) intra-modality residual attention
(IntraMRA) to capture the importance of the elements in a modality, and (c)
inter-modality residual attention (InterMRA) to enhance the importance of
elements with modality-level granularity further. Our concept exhibits
performance that is comparable to or better than the previous set-aware models.
Furthermore, we demonstrate that the visualization of the learned InterMRA and
IntraMRA weights can provide an interpretation of the prediction results.
- Abstract(参考訳): デジタル広告やeコマースなど,さまざまなWebアプリケーションにおけるマルチモーダルデータの利用に対する関心が高まっている。
マルチモーダルデータから重要な情報を抽出する典型的な方法は、複数のエンコーダから特徴表現を組み合わせたミッドフュージョンアーキテクチャに依存している。
しかし、モダリティの数が増えるにつれて、連結多重モード特徴の次元性の増加やモダリティの欠如など、中間融合モデル構造に関する潜在的な問題が発生する。
これらの問題に対処するために,マルチモーダル入力を列の集合,すなわち深層マルチモーダル列集合(dm$^2$s$^2$)として考える新しい概念を提案する。
セットアウェアの概念は、複数のモダリティ間の関係をキャプチャする3つのコンポーネントで構成されています。
(a)BERTベースのエンコーダで、配列内の要素の相互及び内部の順序を処理する。
b)モダリティ内残留注意(IntraMRA)は、モダリティにおける要素の重要性を捉え、
(c) モダリティレベルの粒度を有する要素の重要性を高めるため, モダリティ間残留注意(InterMRA)。
我々の概念は、以前のセットアウェアモデルに匹敵する性能を示す。
さらに,学習したInterMRAおよびIntraMRA重みの可視化により,予測結果の解釈が可能であることを示す。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Adversarial Multimodal Representation Learning for Click-Through Rate
Prediction [16.10640369157054]
本稿では,Click-Through Rate (CTR)予測タスクのための新しいマルチモーダル適応表現ネットワーク(MARN)を提案する。
マルチモーダルアテンションネットワークは、まず、各項目の複数のモーダルティの重みを、そのモーダル比の特徴に応じて算出する。
マルチモーダル対向ネットワークは、二重識別器戦略を導入するモードイン表現を学習する。
論文 参考訳(メタデータ) (2020-03-07T15:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。