Fugu-MT 論文翻訳(概要): Neuro-Inspired Hierarchical Multimodal Learning

論文の概要: Neuro-Inspired Hierarchical Multimodal Learning

arxiv url: http://arxiv.org/abs/2309.15877v3
Date: Tue, 23 Apr 2024 17:57:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 20:04:56.870640
Title: Neuro-Inspired Hierarchical Multimodal Learning
Title（参考訳）: 神経に触発された階層型マルチモーダル学習
Authors: Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan,
Abstract要約: 我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。本モデルでは,主モーダリティを入力として指定し,残りのモーダリティは情報経路の検出器として機能する。我々のモデルは、最先端のベンチマークよりも優れたマルチモーダル学習シナリオにおいて、決定的な情報を一貫して蒸留する。
参考スコア（独自算出の注目度）: 16.8379583872582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Distinct from most traditional fusion models that aim to incorporate all modalities as input, our model designates the prime modality as input, while the remaining modalities act as detectors in the information pathway. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of downstream tasks. Experimental evaluations on both the MUStARD and CMU-MOSI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks.
Abstract（参考訳）: 様々な情報源やモダリティからの情報の統合と処理は、現実世界の包括的で正確な認識を得るために重要である。神経科学からインスピレーションを得た情報理論階層知覚(ITHP)モデルを開発した。入力としてすべてのモダリティを組み込むことを目的とした従来の融合モデルとは異なり、本モデルは入力として主モダリティを指定し、残りのモダリティは情報経路の検出器として機能する。提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。このアプローチは、冗長性を最小化しながら関連情報を保持し、ダウンストリームタスクの性能を大幅に向上する、コンパクトな潜在状態表現をもたらす。 MUStARDデータセットとCMU-MOSIデータセットの両方の実験評価により、我々のモデルはマルチモーダル学習シナリオにおいて、常に重要な情報を蒸留し、最先端のベンチマークより優れていることが示された。

関連論文リスト

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation [36.338586087343806]
我々はMRdIB(Multimodal Representation-disentangled Information Bottleneck)という新しいフレームワークを提案する。具体的には,まず,入力表現を圧縮するためにマルチモーダル・インフォメーション・ボトルネックを用いる。そして,レコメンデーションターゲットとの関係に基づいて,情報をユニークで冗長な,シナジスティックなコンポーネントに分解する。
論文参考訳（メタデータ） (2025-09-24T15:18:32Z)
Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion [0.0]
我々はMixture of Complementary Modality Experts (MoCME)という新しいフレームワークを提案する。 MoCMEはComplementarity-guided Modality Knowledge Fusion (CMKF)モジュールとEntropy-guided Negative Sampling (EGNS)メカニズムで構成されている。私たちのMoCMEは最先端のパフォーマンスを達成し、既存のアプローチを超越しています。
論文参考訳（メタデータ） (2025-07-28T08:35:11Z)
ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion [25.1725138364452]
注意に基づく障害特徴補完(ADMC)のための拡散モデルを提案する。本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
論文参考訳（メタデータ） (2025-07-08T03:08:52Z)
Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文参考訳（メタデータ） (2025-05-22T10:01:59Z)
Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文参考訳（メタデータ） (2025-04-17T06:35:01Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning [16.8379583872582]
我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。我々は、ITHPがマルチモーダル学習シナリオにおいて重要な情報を一貫して蒸留し、最先端のベンチマークより優れていることを示す。
論文参考訳（メタデータ） (2024-04-15T01:34:44Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Balanced Multi-modal Federated Learning via Cross-Modal Infiltration [19.513099949266156]
フェデレートラーニング(FL)は、プライバシを保存する分散コンピューティングの進歩を支えている。本稿では,新しいクロスモーダル・インフィルティング・フェデレート・ラーニング(FedCMI)フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-31T05:50:15Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Discriminative Multimodal Learning via Conditional Priors in Generative Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文参考訳（メタデータ） (2021-10-09T17:22:24Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
MHVAE: a Human-Inspired Deep Hierarchical Generative Model for Multimodal Representation Learning [8.70928211339504]
表現学習のための階層型マルチモーダル生成モデルであるMHVAE(Multimodal Hierarchical Vari Auto-Encoder)をコントリビュートする。人間の認知モデルにインスパイアされたMHVAEは、モダリティ固有の分布と、モダリティ間の推論に責任を持つ共同モダリティ分布を学習することができる。本モデルは,任意の入力モダリティと相互モダリティ推定による共同モダリティ再構成に関する他の最先端生成モデルと同等に機能する。
論文参考訳（メタデータ） (2020-06-04T16:24:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。