論文の概要: Rethinking the constraints of multimodal fusion: case study in
Weakly-Supervised Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2105.14430v1
- Date: Sun, 30 May 2021 05:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:13:56.402825
- Title: Rethinking the constraints of multimodal fusion: case study in
Weakly-Supervised Audio-Visual Video Parsing
- Title(参考訳): マルチモーダルフュージョンの制約を再考する:弱視映像解析におけるケーススタディ
- Authors: Jianning Wu, Zhuqing Jiang, Shiping Wen, Aidong Men, Haiying Wang
- Abstract要約: 最適な特徴抽出ネットワークのコロケーションを選択することは、マルチモーダルタスクにおいて非常に重要なサブプロブレムであることを示す。
数学における極値変換の一般的な実践を参照して、最適化問題を比較上界の問題に変換する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.395800183719964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For multimodal tasks, a good feature extraction network should extract
information as much as possible and ensure that the extracted feature embedding
and other modal feature embedding have an excellent mutual understanding. The
latter is often more critical in feature fusion than the former. Therefore,
selecting the optimal feature extraction network collocation is a very
important subproblem in multimodal tasks. Most of the existing studies ignore
this problem or adopt an ergodic approach. This problem is modeled as an
optimization problem in this paper. A novel method is proposed to convert the
optimization problem into an issue of comparative upper bounds by referring to
the general practice of extreme value conversion in mathematics. Compared with
the traditional method, it reduces the time cost.
Meanwhile, aiming at the common problem that the feature similarity and the
feature semantic similarity are not aligned in the multimodal time-series
problem, we refer to the idea of contrast learning and propose a multimodal
time-series contrastive loss(MTSC).
Based on the above issues, We demonstrated the feasibility of our approach in
the audio-visual video parsing task. Substantial analyses verify that our
methods promote the fusion of different modal features.
- Abstract(参考訳): マルチモーダルタスクでは,優れた特徴抽出ネットワークが可能な限り情報を抽出し,抽出した特徴の埋め込みやその他の特徴の埋め込みが相互理解に優れるようにする必要がある。
後者は、しばしば前者よりも機能融合において重要である。
したがって、最適特徴抽出ネットワークコロケーションの選択は、マルチモーダルタスクにおいて非常に重要な部分問題である。
既存の研究の多くはこの問題を無視したり、エルゴード的なアプローチを採用したりしている。
本稿では,この問題を最適化問題としてモデル化する。
数学における極限値変換(extreme value conversion)の一般的な実践を参考に,最適化問題を比較上限問題に変換する新しい手法を提案する。
従来の方法と比較すると、時間コストが削減される。
一方,マルチモーダル時系列問題では特徴類似性と特徴意味類似性が一致しないという共通問題に対して,コントラスト学習の考え方を言及し,マルチモーダル時系列比較損失(MTSC)を提案する。
以上の課題に基づき,音声・視覚的ビデオ解析におけるアプローチの有効性を実証した。
本手法が様々なモーダル特徴の融合を促進することを確認する。
関連論文リスト
- Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multi-Task Learning with Multi-Task Optimization [31.518330903602095]
最適化されているが、よく分散されたモデルの集合が、1つのアルゴリズムパスで異なるトレードオフを具現化していることを示す。
様々な問題設定を解決するために,マルチタスク最適化を用いたマルチタスク学習を提案する。
論文 参考訳(メタデータ) (2024-03-24T14:04:40Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。