論文の概要: Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2404.09403v2
- Date: Mon, 22 Apr 2024 20:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:36:58.310712
- Title: Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning
- Title(参考訳): マルチモーダル学習のための神経インスパイアされた情報理論的階層的知覚
- Authors: Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan,
- Abstract要約: 我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。
我々は、ITHPがマルチモーダル学習シナリオにおいて重要な情報を一貫して蒸留し、最先端のベンチマークより優れていることを示す。
- 参考スコア(独自算出の注目度): 16.8379583872582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world in autonomous systems and cyber-physical systems. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Different from most traditional fusion models that incorporate all modalities identically in neural networks, our model designates a prime modality and regards the remaining modalities as detectors in the information pathway, serving to distill the flow of information. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of multimodal representation learning. Experimental evaluations on the MUStARD, CMU-MOSI, and CMU-MOSEI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks. Remarkably, on the CMU-MOSI dataset, ITHP surpasses human-level performance in the multimodal sentiment binary classification task across all evaluation metrics (i.e., Binary Accuracy, F1 Score, Mean Absolute Error, and Pearson Correlation).
- Abstract(参考訳): 様々な情報源やモダリティからの情報の統合と処理は、自律システムやサイバー物理システムにおける現実世界の包括的かつ正確な認識を得るために重要である。
神経科学からインスピレーションを得た情報理論階層知覚(ITHP)モデルを開発した。
ニューラルネットワークで同一の全てのモーダルを組み込んだ従来の融合モデルとは異なり、我々のモデルは素数モーダルを指定し、残りのモーダルを情報経路の検出器とみなし、情報の流れを蒸留する。
提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。
このアプローチは,冗長性を最小化しながら関連情報を保持し,マルチモーダル表現学習の性能を大幅に向上させる。
MUStARD, CMU-MOSI, CMU-MOSEIデータセットの実験的評価により, 本モデルはマルチモーダル学習シナリオにおいて決定的な情報を連続的に蒸留し, 最先端のベンチマークより優れていることが示された。
注目すべきは、CMU-MOSIデータセットにおいて、ITHPは、すべての評価指標(バイナリ精度、F1スコア、平均絶対誤差、ピアソン相関など)にわたるマルチモーダルな感情のバイナリ分類タスクにおいて、人間レベルのパフォーマンスを上回っていることである。
関連論文リスト
- Discovering Common Information in Multi-view Data [35.37807004353416]
多視点データから共通情報を計算するための革新的で数学的に厳密な定義を導入する。
我々は,共通情報と一意情報の両方を捉えるために,教師付き多視点学習フレームワークを開発した。
論文 参考訳(メタデータ) (2024-06-21T10:47:06Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Balanced Multi-modal Federated Learning via Cross-Modal Infiltration [19.513099949266156]
フェデレートラーニング(FL)は、プライバシを保存する分散コンピューティングの進歩を支えている。
本稿では,新しいクロスモーダル・インフィルティング・フェデレート・ラーニング(FedCMI)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-31T05:50:15Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Neuro-Inspired Hierarchical Multimodal Learning [16.8379583872582]
我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。
本モデルでは,主モーダリティを入力として指定し,残りのモーダリティは情報経路の検出器として機能する。
我々のモデルは、最先端のベンチマークよりも優れたマルチモーダル学習シナリオにおいて、決定的な情報を一貫して蒸留する。
論文 参考訳(メタデータ) (2023-09-27T05:50:05Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。