論文の概要: Rethinking the constraints of multimodal fusion: case study in
Weakly-Supervised Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2105.14430v1
- Date: Sun, 30 May 2021 05:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:13:56.402825
- Title: Rethinking the constraints of multimodal fusion: case study in
Weakly-Supervised Audio-Visual Video Parsing
- Title(参考訳): マルチモーダルフュージョンの制約を再考する:弱視映像解析におけるケーススタディ
- Authors: Jianning Wu, Zhuqing Jiang, Shiping Wen, Aidong Men, Haiying Wang
- Abstract要約: 最適な特徴抽出ネットワークのコロケーションを選択することは、マルチモーダルタスクにおいて非常に重要なサブプロブレムであることを示す。
数学における極値変換の一般的な実践を参照して、最適化問題を比較上界の問題に変換する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.395800183719964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For multimodal tasks, a good feature extraction network should extract
information as much as possible and ensure that the extracted feature embedding
and other modal feature embedding have an excellent mutual understanding. The
latter is often more critical in feature fusion than the former. Therefore,
selecting the optimal feature extraction network collocation is a very
important subproblem in multimodal tasks. Most of the existing studies ignore
this problem or adopt an ergodic approach. This problem is modeled as an
optimization problem in this paper. A novel method is proposed to convert the
optimization problem into an issue of comparative upper bounds by referring to
the general practice of extreme value conversion in mathematics. Compared with
the traditional method, it reduces the time cost.
Meanwhile, aiming at the common problem that the feature similarity and the
feature semantic similarity are not aligned in the multimodal time-series
problem, we refer to the idea of contrast learning and propose a multimodal
time-series contrastive loss(MTSC).
Based on the above issues, We demonstrated the feasibility of our approach in
the audio-visual video parsing task. Substantial analyses verify that our
methods promote the fusion of different modal features.
- Abstract(参考訳): マルチモーダルタスクでは,優れた特徴抽出ネットワークが可能な限り情報を抽出し,抽出した特徴の埋め込みやその他の特徴の埋め込みが相互理解に優れるようにする必要がある。
後者は、しばしば前者よりも機能融合において重要である。
したがって、最適特徴抽出ネットワークコロケーションの選択は、マルチモーダルタスクにおいて非常に重要な部分問題である。
既存の研究の多くはこの問題を無視したり、エルゴード的なアプローチを採用したりしている。
本稿では,この問題を最適化問題としてモデル化する。
数学における極限値変換(extreme value conversion)の一般的な実践を参考に,最適化問題を比較上限問題に変換する新しい手法を提案する。
従来の方法と比較すると、時間コストが削減される。
一方,マルチモーダル時系列問題では特徴類似性と特徴意味類似性が一致しないという共通問題に対して,コントラスト学習の考え方を言及し,マルチモーダル時系列比較損失(MTSC)を提案する。
以上の課題に基づき,音声・視覚的ビデオ解析におけるアプローチの有効性を実証した。
本手法が様々なモーダル特徴の融合を促進することを確認する。
関連論文リスト
- Invariant Test-Time Adaptation for Vision-Language Model Generalization [90.70743356588996]
学習可能なプロンプトを最適化するテスト時間プロンプトチューニングのパラダイムを導入し,真の因果不変性を活用できるようにモデルを説得する。
提案手法は,潜在的に誤解を招く可能性のあるタスク関連文脈情報への過度な依存を効果的に軽減する。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。