論文の概要: Neural Dependency Coding inspired Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2110.00385v2
- Date: Mon, 4 Oct 2021 13:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-10 09:16:07.657025
- Title: Neural Dependency Coding inspired Multimodal Fusion
- Title(参考訳): ニューラルネットワークによるマルチモーダル核融合
- Authors: Shiv Shankar
- Abstract要約: 近年のニューラルネットワークによる深層融合モデルの研究は、音声認識、感情認識、分析、キャプション、画像記述などの分野で大幅に改善されている。
近年の多感覚統合と処理に関する神経科学の考え方に触発され,シナジー最大化損失関数の効果について検討した。
- 参考スコア(独自算出の注目度): 11.182263394122142
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Information integration from different modalities is an active area of
research. Human beings and, in general, biological neural systems are quite
adept at using a multitude of signals from different sensory perceptive fields
to interact with the environment and each other. Recent work in deep fusion
models via neural networks has led to substantial improvements over unimodal
approaches in areas like speech recognition, emotion recognition and analysis,
captioning and image description. However, such research has mostly focused on
architectural changes allowing for fusion of different modalities while keeping
the model complexity manageable. Inspired by recent neuroscience ideas about
multisensory integration and processing, we investigate the effect of synergy
maximizing loss functions. Experiments on multimodal sentiment analysis tasks:
CMU-MOSI and CMU-MOSEI with different models show that our approach provides a
consistent performance boost.
- Abstract(参考訳): 異なるモダリティからの情報統合は研究の活発な領域である。
人間および一般に、生物学的神経系は、環境と相互に相互作用するために、異なる知覚野からの様々な信号を使用するのに非常に適している。
近年のニューラルネットワークによる深層融合モデルの研究は、音声認識、感情認識と分析、キャプション、画像記述といった分野における一助的なアプローチよりも大幅に改善されている。
しかし、このような研究は主に、モデルの複雑さを管理しつつ、異なるモダリティの融合を可能にするアーキテクチャの変更に焦点を当てている。
近年の多感覚統合と処理に関する神経科学の考え方に触発され,シナジー最大化損失関数の効果について検討した。
CMU-MOSIとCMU-MOSEIの異なるモデルを用いたマルチモーダル感情分析実験は、我々のアプローチが一貫した性能向上をもたらすことを示している。
関連論文リスト
- Multi-modal Mood Reader: Pre-trained Model Empowers Cross-Subject Emotion Recognition [23.505616142198487]
我々は、クロスオブジェクト感情認識のための訓練済みモデルに基づくMultimodal Mood Readerを開発した。
このモデルは、大規模データセットの事前学習を通じて、脳波信号の普遍的な潜在表現を学習する。
公開データセットに関する大規模な実験は、クロスオブジェクト感情認識タスクにおけるMood Readerの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T14:31:11Z) - MindFormer: A Transformer Architecture for Multi-Subject Brain Decoding via fMRI [50.55024115943266]
我々は、fMRI条件の特徴ベクトルを生成するためにMindFormerと呼ばれる新しいトランスフォーマーアーキテクチャを導入する。
MindFormerは,1)fMRI信号から意味論的に意味のある特徴を抽出するIP-Adapterに基づく新しいトレーニング戦略,2)fMRI信号の個人差を効果的に捉える主観的トークンと線形層である。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation [12.094890186803958]
マルチモーダル画像のモダリティ内依存性とモダリティ間依存性を統合した新しいModality Aware and Shift Mixerを提案する。
具体的には,低レベルのモザイク対関係をモデル化するためのニューロイメージング研究に基づいてModality-Awareモジュールを導入し,モザイクパターンを具体化したModality-Shiftモジュールを開発し,高レベルのモザイク間の複雑な関係を自己注意を通して探索する。
論文 参考訳(メタデータ) (2024-03-04T14:21:51Z) - Joint Self-Supervised and Supervised Contrastive Learning for Multimodal
MRI Data: Towards Predicting Abnormal Neurodevelopment [5.771221868064265]
マルチモーダルMRIデータから頑健な潜在特徴表現を学習するための,新しい自己教師付きコントラスト学習法を提案する。
本手法は,マルチモーダルデータの活用により,臨床実習におけるコンピュータ支援診断を容易にする能力を有する。
論文 参考訳(メタデータ) (2023-12-22T21:05:51Z) - Multimodal Adaptive Fusion of Face and Gait Features using Keyless
attention based Deep Neural Networks for Human Identification [67.64124512185087]
歩行のような軟式生体認証は、人物認識や再識別といった監視作業において顔に広く使われている。
本稿では,キーレス注意深層ニューラルネットワークを活用することで,歩行と顔のバイオメトリック・キューを動的に組み込むための適応型マルチバイオメトリック・フュージョン戦略を提案する。
論文 参考訳(メタデータ) (2023-03-24T05:28:35Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。
サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。
これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文 参考訳(メタデータ) (2022-05-23T21:57:31Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。