論文の概要: Exploiting Temporal Coherence for Multi-modal Video Categorization
- arxiv url: http://arxiv.org/abs/2002.03844v2
- Date: Sat, 6 Jun 2020 00:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:33:38.105415
- Title: Exploiting Temporal Coherence for Multi-modal Video Categorization
- Title(参考訳): マルチモーダルビデオ分類のための時間的コヒーレンス
- Authors: Palash Goyal, Saurabh Sahu, Shalini Ghosh, Chul Lee
- Abstract要約: 本稿では,マルチモーダルアプローチによる映像分類の問題に焦点をあてる。
我々は,新しい時間的コヒーレンスに基づく正規化手法を開発し,異なるタイプのモデルに適用した。
本研究では,時間的コヒーレンスによるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 24.61762520189921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal ML models can process data in multiple modalities (e.g., video,
images, audio, text) and are useful for video content analysis in a variety of
problems (e.g., object detection, scene understanding). In this paper, we focus
on the problem of video categorization by using a multimodal approach. We have
developed a novel temporal coherence-based regularization approach, which
applies to different types of models (e.g., RNN, NetVLAD, Transformer). We
demonstrate through experiments how our proposed multimodal video
categorization models with temporal coherence out-perform strong
state-of-the-art baseline models.
- Abstract(参考訳): マルチモーダルMLモデルは、複数のモード(ビデオ、画像、オーディオ、テキストなど)でデータを処理でき、様々な問題(オブジェクト検出、シーン理解など)におけるビデオコンテンツ分析に有用である。
本稿では,マルチモーダルアプローチによるビデオ分類の問題に着目する。
我々は、異なるタイプのモデル(例えば、RNN、NetVLAD、Transformer)に適用可能な、新しい時間的コヒーレンスに基づく正規化手法を開発した。
本研究では,時間的コヒーレンスによるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
関連論文リスト
- Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では,データログ類似度を厳密に近似できる変動目標について考察する。
我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Frame Aggregation and Multi-Modal Fusion Framework for Video-Based
Person Recognition [13.875674649636874]
ビデオに基づく人物認識のためのフレームアグリゲーションとマルチモーダルフュージョン(FAMF)フレームワークを提案する。
FAMFは顔の特徴を集約し、ビデオ内の人物を特定するためのマルチモーダル情報を組み込む。
本稿では,NetVLADにアテンション機構を導入することで,低品質フレームの影響を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2020-10-19T08:06:40Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - Cross-modal Learning for Multi-modal Video Categorization [24.61762520189921]
マルチモーダル機械学習(ML)モデルは、複数のモーダルでデータを処理できる。
本稿では,マルチモーダルML技術を用いたビデオ分類の問題に焦点をあてる。
本稿では,クロスモーダル学習によるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T03:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。