Fugu-MT 論文翻訳(概要): Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning

論文の概要: Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning

arxiv url: http://arxiv.org/abs/2404.09403v1
Date: Mon, 15 Apr 2024 01:34:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 14:09:06.893135
Title: Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning
Title（参考訳）: マルチモーダル学習のための神経インスパイアされた情報理論的階層的知覚
Authors: Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan,
Abstract要約: 我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。我々は、ITHPがマルチモーダル学習シナリオにおいて重要な情報を一貫して蒸留し、最先端のベンチマークより優れていることを示す。
参考スコア（独自算出の注目度）: 16.8379583872582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world in autonomous systems and cyber-physical systems. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Different from most traditional fusion models that incorporate all modalities identically in neural networks, our model designates a prime modality and regards the remaining modalities as detectors in the information pathway, serving to distill the flow of information. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of multimodal representation learning. Experimental evaluations on the MUStARD, CMU-MOSI, and CMU-MOSEI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks. Remarkably, on the CMU-MOSI dataset, ITHP surpasses human-level performance in the multimodal sentiment binary classification task across all evaluation metrics (i.e., Binary Accuracy, F1 Score, Mean Absolute Error, and Pearson Correlation).
Abstract（参考訳）: 様々な情報源やモダリティからの情報の統合と処理は、自律システムやサイバー物理システムにおける現実世界の包括的かつ正確な認識を得るために重要である。神経科学からインスピレーションを得た情報理論階層知覚(ITHP)モデルを開発した。ニューラルネットワークで同一の全てのモーダルを組み込んだ従来の融合モデルとは異なり、我々のモデルは素数モーダルを指定し、残りのモーダルを情報経路の検出器とみなし、情報の流れを蒸留する。提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。このアプローチは,冗長性を最小化しながら関連情報を保持し,マルチモーダル表現学習の性能を大幅に向上させる。 MUStARD, CMU-MOSI, CMU-MOSEIデータセットの実験的評価により, 本モデルはマルチモーダル学習シナリオにおいて決定的な情報を連続的に蒸留し, 最先端のベンチマークより優れていることが示された。注目すべきは、CMU-MOSIデータセットにおいて、ITHPは、すべての評価指標(バイナリ精度、F1スコア、平均絶対誤差、ピアソン相関など)にわたるマルチモーダルな感情のバイナリ分類タスクにおいて、人間レベルのパフォーマンスを上回っていることである。

関連論文リスト

Multi-modal Co-learning for Earth Observation: Enhancing single-modality models via modality collaboration [9.66105329596482]
推論の特定のモダリティを目標にすることなく、様々なタスクを一般化できる新しいマルチモーダル・コラーニングフレームワークを提案する。我々のアプローチは、対照的かつモダリティの識別学習を組み合わせ、単一のモダリティモデルを誘導し、内部モデル多様体をモダリティ共有およびモダリティ固有情報に構造化する。
論文参考訳（メタデータ） (2025-10-22T13:29:32Z)
Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion [0.0]
我々はMixture of Complementary Modality Experts (MoCME)という新しいフレームワークを提案する。 MoCMEはComplementarity-guided Modality Knowledge Fusion (CMKF)モジュールとEntropy-guided Negative Sampling (EGNS)メカニズムで構成されている。私たちのMoCMEは最先端のパフォーマンスを達成し、既存のアプローチを超越しています。
論文参考訳（メタデータ） (2025-07-28T08:35:11Z)
ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion [25.1725138364452]
注意に基づく障害特徴補完(ADMC)のための拡散モデルを提案する。本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
論文参考訳（メタデータ） (2025-07-08T03:08:52Z)
Learning Optimal Multimodal Information Bottleneck Representations [5.823241063353844]
我々は,新しいマルチモーダル学習フレームワーク,Optimal Multimodal Information Bottleneck (OMIB)を提案する。 OMIBは理論上導かれた境界内に正規化重みを設定することにより最適MIBの達成性を保証する。我々はOMIBの合成データに対する理論的特性を実証的に検証し、様々な下流タスクにおける最先端ベンチマーク手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-26T13:48:07Z)
INFO-SEDD: Continuous Time Markov Chains as Scalable Information Metrics Estimators [7.399561232927219]
INFO-SEDDは、相互情報やエントロピーを含む離散データの情報理論量の推定方法である。提案手法では,1つのパラメトリックモデルのトレーニングが必要である。実験の結果、INFO-SEDDは堅牢であり、埋め込み技術に依存しているニューラルコンペティターよりも優れていた。
論文参考訳（メタデータ） (2025-02-26T14:40:00Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Discovering Common Information in Multi-view Data [35.37807004353416]
多視点データから共通情報を計算するための革新的で数学的に厳密な定義を導入する。我々は,共通情報と一意情報の両方を捉えるために,教師付き多視点学習フレームワークを開発した。
論文参考訳（メタデータ） (2024-06-21T10:47:06Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Balanced Multi-modal Federated Learning via Cross-Modal Infiltration [19.513099949266156]
フェデレートラーニング(FL)は、プライバシを保存する分散コンピューティングの進歩を支えている。本稿では,新しいクロスモーダル・インフィルティング・フェデレート・ラーニング(FedCMI)フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-31T05:50:15Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Neuro-Inspired Hierarchical Multimodal Learning [16.8379583872582]
我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。本モデルでは,主モーダリティを入力として指定し,残りのモーダリティは情報経路の検出器として機能する。我々のモデルは、最先端のベンチマークよりも優れたマルチモーダル学習シナリオにおいて、決定的な情報を一貫して蒸留する。
論文参考訳（メタデータ） (2023-09-27T05:50:05Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
How to Sense the World: Leveraging Hierarchy in Multimodal Perception for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。 MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文参考訳（メタデータ） (2021-10-07T16:35:23Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。