論文の概要: Generative-based Fusion Mechanism for Multi-Modal Tracking
- arxiv url: http://arxiv.org/abs/2309.01728v1
- Date: Mon, 4 Sep 2023 17:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:55:21.784501
- Title: Generative-based Fusion Mechanism for Multi-Modal Tracking
- Title(参考訳): マルチモーダルトラッキングのための生成的核融合機構
- Authors: Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Xiao-Jun Wu, Josef Kittler
- Abstract要約: CGAN(Con Conditional Generative Adversarial Networks)とDM(Diffusion Models)を導入する。
我々はこれらのマルチモーダルな特徴をGMフレームワークでランダムノイズで条件付けし、元のトレーニングサンプルをより難しいインスタンスに効果的に変換する。
この設計は特徴から識別的手がかりを抽出し、究極の追跡性能を向上させる。
- 参考スコア(独自算出の注目度): 35.77340348091937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models (GMs) have received increasing research interest for their
remarkable capacity to achieve comprehensive understanding. However, their
potential application in the domain of multi-modal tracking has remained
relatively unexplored. In this context, we seek to uncover the potential of
harnessing generative techniques to address the critical challenge, information
fusion, in multi-modal tracking. In this paper, we delve into two prominent GM
techniques, namely, Conditional Generative Adversarial Networks (CGANs) and
Diffusion Models (DMs). Different from the standard fusion process where the
features from each modality are directly fed into the fusion block, we
condition these multi-modal features with random noise in the GM framework,
effectively transforming the original training samples into harder instances.
This design excels at extracting discriminative clues from the features,
enhancing the ultimate tracking performance. To quantitatively gauge the
effectiveness of our approach, we conduct extensive experiments across two
multi-modal tracking tasks, three baseline methods, and three challenging
benchmarks. The experimental results demonstrate that the proposed
generative-based fusion mechanism achieves state-of-the-art performance,
setting new records on LasHeR and RGBD1K.
- Abstract(参考訳): 生成モデル(gms)は、包括的理解を達成するための顕著な能力について研究の関心が高まっている。
しかしながら、マルチモーダルトラッキングの領域における彼らの潜在的な応用は、比較的未調査のままである。
この文脈では,多モードトラッキングにおいて重要な課題である情報融合に対処するために,生成技術を活用する可能性を明らかにする。
本稿では,2つのGM技術,すなわち条件付き生成逆数ネットワーク(CGAN)と拡散モデル(DM)を探索する。
各モードの特徴を直接融合ブロックに供給する標準的な融合プロセスとは異なり、GMフレームワークにランダムノイズを伴ってこれらのマルチモーダル特徴を条件付けし、元のトレーニングサンプルをより難しいインスタンスに効果的に変換する。
この設計は特徴から識別的手がかりを抽出し、究極の追跡性能を向上させる。
提案手法の有効性を定量的に評価するために,マルチモーダルトラッキングタスク2つ,ベースラインメソッド3つ,挑戦ベンチマーク3つにまたがる広範な実験を行った。
実験の結果,提案手法はラッシャーとrgbd1kに新しいレコードをセットすることで,最先端の性能を実現することがわかった。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。