論文の概要: Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation
- arxiv url: http://arxiv.org/abs/2410.15475v1
- Date: Sun, 20 Oct 2024 19:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:38.732537
- Title: Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation
- Title(参考訳): Poisson-Nernst-Planck方程式による一般化多モード核融合
- Authors: Jiayu Xiong, Jing Wang, Hengjing Xiang, Jun Xue, Chen Xu, Zhouqiang Jiang,
- Abstract要約: 本稿では,Poisson-Nernst-Planck(PNP)方程式を用いた一般化多モード融合法(GMF)を提案する。
提案したGMFは,より少ないパラメータと計算資源を生かしながら,最先端(SOTA)の精度に近い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 5.022049774600693
- License:
- Abstract: Previous studies have highlighted significant advancements in multimodal fusion. Nevertheless, such methods often encounter challenges regarding the efficacy of feature extraction, data integrity, consistency of feature dimensions, and adaptability across various downstream tasks. This paper proposes a generalized multimodal fusion method (GMF) via the Poisson-Nernst-Planck (PNP) equation, which adeptly addresses the aforementioned issues. Theoretically, the optimization objective for traditional multimodal tasks is formulated and redefined by integrating information entropy and the flow of gradient backward step. Leveraging these theoretical insights, the PNP equation is applied to feature fusion, rethinking multimodal features through the framework of charged particles in physics and controlling their movement through dissociation, concentration, and reconstruction. Building on these theoretical foundations, GMF disassociated features which extracted by the unimodal feature extractor into modality-specific and modality-invariant subspaces, thereby reducing mutual information and subsequently lowering the entropy of downstream tasks. The identifiability of the feature's origin enables our approach to function independently as a frontend, seamlessly integrated with a simple concatenation backend, or serve as a prerequisite for other modules. Experimental results on multiple downstream tasks show that the proposed GMF achieves performance close to the state-of-the-art (SOTA) accuracy while utilizing fewer parameters and computational resources. Furthermore, by integrating GMF with advanced fusion methods, we surpass the SOTA results.
- Abstract(参考訳): 従来の研究は、マルチモーダル核融合の著しい進歩を浮き彫りにした。
にもかかわらず、このような手法は、特徴抽出の有効性、データの整合性、特徴次元の整合性、下流の様々なタスクへの適応性といった課題に遭遇することが多い。
本稿では,PNP(Poisson-Nernst-Planck)方程式を用いた一般化多モード融合法(GMF)を提案する。
理論的には、従来のマルチモーダルタスクの最適化目的は、情報エントロピーと勾配後退ステップのフローを統合することによって定式化され、再定義される。
これらの理論的な洞察を生かして、PNP方程式は特徴融合に適用され、物理学における荷電粒子の枠組みを通じて多モーダルな特徴を再考し、解離、濃度、再構成を通じてそれらの運動を制御する。
これらの理論の基礎の上に構築されたGMFは、一様特徴抽出器によって抽出された特徴を、モダリティ固有部分空間とモダリティ不変部分空間に分解し、相互情報を低減し、下流タスクのエントロピーを低下させる。
機能の起源の識別可能性により、私たちのアプローチはフロントエンドとして独立して機能し、単純な結合バックエンドとシームレスに統合されるか、あるいは他のモジュールの前提条件として機能します。
複数のダウンストリームタスクに対する実験結果から,提案したGMFは,パラメータや計算資源を減らしながら,最先端(SOTA)の精度に近い性能を実現することが示された。
さらに, GMFと高度核融合法を統合することにより, SOTA結果を上回った。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time [19.308304984645684]
正規化フロー(NF)に基づくDGM(Deep Generative Model)の利用を提案する。
我々はまず,不完全点雲上に条件付きグリップ分布を学習するために,単一条件NF(cNFs)を直接適用することにより,多様性の向上を推し進めた。
これにより、我々は新しいフローベースd Deep Latent Variable Model (DLVM)を開発する動機となった。
変分オートエンコーダ(VAE)とは異なり、提案するDLVMは2つのcNFを事前分布と可能性分布に利用することにより、典型的な落とし穴に対処する。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion
Odometry Estimation [7.778461949427663]
生体計測のためのエンド・ツー・エンド型のトランスフォーマーベースLiDAR-Inertial fusion framework(TransFusionOdom)を提案する。
オーバーフィッティング問題に対処するために、同質および異質なモダリティに対する異なる融合アプローチを示す。
総括的アブレーション研究は、提案した核融合戦略の性能を検証するために、異なるマルチモーダル核融合戦略を評価する。
論文 参考訳(メタデータ) (2023-04-16T08:54:36Z) - D4FT: A Deep Learning Approach to Kohn-Sham Density Functional Theory [79.50644650795012]
コーンシャム密度汎関数論(KS-DFT)を解くための深層学習手法を提案する。
このような手法はSCF法と同じ表現性を持つが,計算複雑性は低下する。
さらに,本手法により,より複雑なニューラルベース波動関数の探索が可能となった。
論文 参考訳(メタデータ) (2023-03-01T10:38:10Z) - Sampling with Mollified Interaction Energy Descent [57.00583139477843]
モーフィファイド相互作用エネルギー降下(MIED)と呼ばれる新しい最適化に基づくサンプリング手法を提案する。
MIEDは、モル化相互作用エネルギー(MIE)と呼ばれる確率測度に関する新しいクラスのエネルギーを最小化する
我々は,制約のないサンプリング問題に対して,我々のアルゴリズムがSVGDのような既存の粒子ベースアルゴリズムと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-10-24T16:54:18Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Information-theoretic Feature Selection via Tensor Decomposition and
Submodularity [38.05393186002834]
本稿では,全ての変数の結合PMFの低ランクテンソルモデルを導入し,複雑性を緩和し,与えられた特徴量の分類性能を最大化する手法として間接的ターゲットを提案する。
原目標変数の代わりにネイブベイズモデルの潜伏変数を間接的に予測することにより、濃度制約を受ける単調部分モジュラ函数として特徴選択問題を定式化することができる。
論文 参考訳(メタデータ) (2020-10-30T10:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。