論文の概要: Analyzing Multimodal Integration in the Variational Autoencoder from an Information-Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2411.00522v1
- Date: Fri, 01 Nov 2024 11:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:09.532054
- Title: Analyzing Multimodal Integration in the Variational Autoencoder from an Information-Theoretic Perspective
- Title(参考訳): 情報理論から見た変分オートエンコーダにおけるマルチモーダル統合の解析
- Authors: Carlotta Langer, Yasmin Kim Georgie, Ilja Porohovoj, Verena Vanessa Hafner, Nihat Ay,
- Abstract要約: 我々は、入力データの再構成において、異なるモダリティの統合がいかに重要であるかを分析する。
我々は、4つの異なるスケジュールでネットワークをトレーニングし、それらをマルチモーダル統合の能力について分析する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Human perception is inherently multimodal. We integrate, for instance, visual, proprioceptive and tactile information into one experience. Hence, multimodal learning is of importance for building robotic systems that aim at robustly interacting with the real world. One potential model that has been proposed for multimodal integration is the multimodal variational autoencoder. A variational autoencoder (VAE) consists of two networks, an encoder that maps the data to a stochastic latent space and a decoder that reconstruct this data from an element of this latent space. The multimodal VAE integrates inputs from different modalities at two points in time in the latent space and can thereby be used as a controller for a robotic agent. Here we use this architecture and introduce information-theoretic measures in order to analyze how important the integration of the different modalities are for the reconstruction of the input data. Therefore we calculate two different types of measures, the first type is called single modality error and assesses how important the information from a single modality is for the reconstruction of this modality or all modalities. Secondly, the measures named loss of precision calculate the impact that missing information from only one modality has on the reconstruction of this modality or the whole vector. The VAE is trained via the evidence lower bound, which can be written as a sum of two different terms, namely the reconstruction and the latent loss. The impact of the latent loss can be weighted via an additional variable, which has been introduced to combat posterior collapse. Here we train networks with four different weighting schedules and analyze them with respect to their capabilities for multimodal integration.
- Abstract(参考訳): 人間の知覚は本質的にマルチモーダルである。
例えば、視覚的、受容的、触覚的な情報をひとつの体験に統合します。
したがって、マルチモーダル学習は、現実世界との密接な対話を目的としたロボットシステムを構築する上で重要である。
マルチモーダル統合のために提案された潜在的なモデルの一つがマルチモーダル変分オートエンコーダである。
変分オートエンコーダ(VAE)は2つのネットワークで構成され、そのデータを確率的潜在空間にマッピングするエンコーダと、この潜在空間の要素からデータを再構成するデコーダである。
マルチモーダルVAEは、潜伏空間における2点の異なるモードからの入力を統合することにより、ロボットエージェントのコントローラとして使用できる。
ここでは、このアーキテクチャを用いて、入力データの再構成において、異なるモダリティの統合がいかに重要かを分析するために、情報理論測度を導入する。
そこで,2種類の測度を計算し,第1のタイプは単一モーダル誤差と呼ばれ,単一モーダルからの情報が,このモーダルや全モーダルの再構成にどの程度重要であるかを評価する。
第二に、精度の喪失と呼ばれる尺度は、1つのモダリティからの情報不足が、このモダリティやベクトル全体の再構築に与える影響を計算する。
VAEはエビデンス・ロー・バウンドを通じて訓練され、これは2つの異なる用語、すなわち再構築と遅延損失の合計として記述できる。
潜伏損失の影響は、後部崩壊と戦うために導入された追加変数によって重み付けすることができる。
ここでは、4つの異なる重み付けスケジュールを持つネットワークをトレーニングし、それらをマルチモーダル統合の能力について分析する。
関連論文リスト
- Any2Any: Incomplete Multimodal Retrieval with Conformal Prediction [17.607392214470295]
我々はAny2Anyという新しい検索フレームワークを提案し、クエリと参照の両方が不完全なモダリティを持つシナリオに対処する。
クロスモーダルエンコーダとのペアワイズ類似度を計算し、同型予測を伴う2段階キャリブレーションプロセスを用いて類似度を整列する。
KITTIデータセットで35%のRecall@5を達成する。
論文 参考訳(メタデータ) (2024-11-15T17:44:27Z) - HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。