論文の概要: Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis
- arxiv url: http://arxiv.org/abs/2004.14198v2
- Date: Mon, 5 Oct 2020 04:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:42:31.208625
- Title: Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis
- Title(参考訳): マルチモーダルルーティング:マルチモーダル言語解析のローカルおよびグローバル解釈性を改善する
- Authors: Yao-Hung Hubert Tsai, Martin Q. Ma, Muqiao Yang, Ruslan Salakhutdinov,
and Louis-Philippe Morency
- Abstract要約: 人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
- 参考スコア(独自算出の注目度): 103.69656907534456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human language can be expressed through multiple sources of information
known as modalities, including tones of voice, facial gestures, and spoken
language. Recent multimodal learning with strong performances on human-centric
tasks such as sentiment analysis and emotion recognition are often black-box,
with very limited interpretability. In this paper we propose Multimodal
Routing, which dynamically adjusts weights between input modalities and output
representations differently for each input sample. Multimodal routing can
identify relative importance of both individual modalities and cross-modality
features. Moreover, the weight assignment by routing allows us to interpret
modality-prediction relationships not only globally (i.e. general trends over
the whole dataset), but also locally for each single input sample, meanwhile
keeping competitive performance compared to state-of-the-art methods.
- Abstract(参考訳): 人間の言語は、声、顔のジェスチャー、話し言葉など、モダリティとして知られる複数の情報ソースを通じて表現することができる。
近年のマルチモーダル学習は感情分析や感情認識といった人間中心のタスクに強いパフォーマンスを持ち、解釈可能性は非常に限られている。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを動的に調整するマルチモーダルルーティングを提案する。
マルチモーダルルーティングは、個々のモダリティとクロスモダリティ機能の両方の相対的重要性を識別することができる。
さらに、ルーティングによる重み付けにより、グローバルなモダリティ-予測関係(すなわちデータセット全体の一般的な傾向)だけでなく、各入力サンプルに対して局所的に、最先端の手法と比較して競争性能を維持することができる。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Interpretable Tensor Fusion [26.314148163750257]
InTense(Interpretable tensor fusion)は,マルチモーダルデータ表現を同時に学習するためのニューラルネットワークのトレーニング手法である。
InTenseは、関連スコアをモダリティとその関連に割り当てることで、ボックスから解釈可能性を提供する。
6つの実世界のデータセットの実験により、InTenseは精度と解釈可能性の観点から、既存の最先端のマルチモーダル解釈アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-05-07T21:05:50Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。