論文の概要: DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality
Attention
- arxiv url: http://arxiv.org/abs/2209.03126v1
- Date: Wed, 7 Sep 2022 13:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 11:56:15.747909
- Title: DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality
Attention
- Title(参考訳): DM$^2$S$^2$:階層的モダリティを考慮した深層多モード列集合
- Authors: Shunsuke Kitada, Yuki Iwazaki, Riku Togashi, Hitoshi Iyatomi
- Abstract要約: マルチモーダルデータから重要な情報を抽出する方法は、ミッドフュージョンアーキテクチャに依存している。
本稿では,マルチモーダル入力を深層マルチモーダルシーケンスセットの集合として考える新しい概念を提案する。
我々の概念は、以前のセットレベルモデルに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 8.382710169577447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is increasing interest in the use of multimodal data in various web
applications, such as digital advertising and e-commerce. Typical methods for
extracting important information from multimodal data rely on a mid-fusion
architecture that combines the feature representations from multiple encoders.
However, as the number of modalities increases, several potential problems with
the mid-fusion model structure arise, such as an increase in the dimensionality
of the concatenated multimodal features and missing modalities. To address
these problems, we propose a new concept that considers multimodal inputs as a
set of sequences, namely, deep multimodal sequence sets (DM$^2$S$^2$). Our
set-aware concept consists of three components that capture the relationships
among multiple modalities: (a) a BERT-based encoder to handle the inter- and
intra-order of elements in the sequences, (b) intra-modality residual attention
(IntraMRA) to capture the importance of the elements in a modality, and (c)
inter-modality residual attention (InterMRA) to enhance the importance of
elements with modality-level granularity further. Our concept exhibits
performance that is comparable to or better than the previous set-aware models.
Furthermore, we demonstrate that the visualization of the learned InterMRA and
IntraMRA weights can provide an interpretation of the prediction results.
- Abstract(参考訳): デジタル広告やeコマースなど,さまざまなWebアプリケーションにおけるマルチモーダルデータの利用に対する関心が高まっている。
マルチモーダルデータから重要な情報を抽出する典型的な方法は、複数のエンコーダから特徴表現を組み合わせたミッドフュージョンアーキテクチャに依存している。
しかし、モダリティの数が増えるにつれて、連結多重モード特徴の次元性の増加やモダリティの欠如など、中間融合モデル構造に関する潜在的な問題が発生する。
これらの問題に対処するために,マルチモーダル入力を列の集合,すなわち深層マルチモーダル列集合(dm$^2$s$^2$)として考える新しい概念を提案する。
セットアウェアの概念は、複数のモダリティ間の関係をキャプチャする3つのコンポーネントで構成されています。
(a)BERTベースのエンコーダで、配列内の要素の相互及び内部の順序を処理する。
b)モダリティ内残留注意(IntraMRA)は、モダリティにおける要素の重要性を捉え、
(c) モダリティレベルの粒度を有する要素の重要性を高めるため, モダリティ間残留注意(InterMRA)。
我々の概念は、以前のセットアウェアモデルに匹敵する性能を示す。
さらに,学習したInterMRAおよびIntraMRA重みの可視化により,予測結果の解釈が可能であることを示す。
関連論文リスト
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.36623165770936]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MM-GEF: Multi-modal representation meet collaborative filtering [51.04679619309803]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Adversarial Multimodal Representation Learning for Click-Through Rate
Prediction [16.10640369157054]
本稿では,Click-Through Rate (CTR)予測タスクのための新しいマルチモーダル適応表現ネットワーク(MARN)を提案する。
マルチモーダルアテンションネットワークは、まず、各項目の複数のモーダルティの重みを、そのモーダル比の特徴に応じて算出する。
マルチモーダル対向ネットワークは、二重識別器戦略を導入するモードイン表現を学習する。
論文 参考訳(メタデータ) (2020-03-07T15:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。