論文の概要: Cross-modal Learning for Multi-modal Video Categorization
- arxiv url: http://arxiv.org/abs/2003.03501v3
- Date: Sat, 6 Jun 2020 00:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:22:31.258701
- Title: Cross-modal Learning for Multi-modal Video Categorization
- Title(参考訳): マルチモーダルビデオ分類のためのクロスモーダル学習
- Authors: Palash Goyal, Saurabh Sahu, Shalini Ghosh, Chul Lee
- Abstract要約: マルチモーダル機械学習(ML)モデルは、複数のモーダルでデータを処理できる。
本稿では,マルチモーダルML技術を用いたビデオ分類の問題に焦点をあてる。
本稿では,クロスモーダル学習によるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 24.61762520189921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal machine learning (ML) models can process data in multiple
modalities (e.g., video, audio, text) and are useful for video content analysis
in a variety of problems (e.g., object detection, scene understanding, activity
recognition). In this paper, we focus on the problem of video categorization
using a multi-modal ML technique. In particular, we have developed a novel
multi-modal ML approach that we call "cross-modal learning", where one modality
influences another but only when there is correlation between the modalities --
for that, we first train a correlation tower that guides the main multi-modal
video categorization tower in the model. We show how this cross-modal principle
can be applied to different types of models (e.g., RNN, Transformer, NetVLAD),
and demonstrate through experiments how our proposed multi-modal video
categorization models with cross-modal learning out-perform strong
state-of-the-art baseline models.
- Abstract(参考訳): マルチモーダル機械学習(ML)モデルは、複数のモーダル(ビデオ、オーディオ、テキストなど)でデータを処理でき、様々な問題(オブジェクト検出、シーン理解、アクティビティ認識など)におけるビデオコンテンツ分析に有用である。
本稿では,マルチモーダルML技術を用いたビデオ分類の問題に焦点をあてる。
特に、我々は「クロスモーダル学習」と呼ばれる新しいマルチモーダルML手法を開発し、一つのモダリティが他のモダリティに影響を及ぼすが、モダリティの間に相関関係がある場合にのみ、モデルの主要なマルチモーダルビデオ分類塔を案内する相関塔を訓練する。
このクロスモーダル原理を様々なモデル(例えば、rnn、transformer、netvlad)に適用し、クロスモーダル学習を用いたマルチモーダルビデオ分類モデルが最先端のベースラインモデルよりも優れていることを示す。
関連論文リスト
- Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond [48.43910061720815]
マルチモーダル生成AIは、学術と産業の両方で注目を集めている。
理解と生成の両方に統一されたモデルを持つことは可能か?
論文 参考訳(メタデータ) (2024-09-23T13:16:09Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - Exploiting Temporal Coherence for Multi-modal Video Categorization [24.61762520189921]
本稿では,マルチモーダルアプローチによる映像分類の問題に焦点をあてる。
我々は,新しい時間的コヒーレンスに基づく正規化手法を開発し,異なるタイプのモデルに適用した。
本研究では,時間的コヒーレンスによるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-02-07T06:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。