論文の概要: Exploiting Temporal Coherence for Multi-modal Video Categorization
- arxiv url: http://arxiv.org/abs/2002.03844v2
- Date: Sat, 6 Jun 2020 00:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:33:38.105415
- Title: Exploiting Temporal Coherence for Multi-modal Video Categorization
- Title(参考訳): マルチモーダルビデオ分類のための時間的コヒーレンス
- Authors: Palash Goyal, Saurabh Sahu, Shalini Ghosh, Chul Lee
- Abstract要約: 本稿では,マルチモーダルアプローチによる映像分類の問題に焦点をあてる。
我々は,新しい時間的コヒーレンスに基づく正規化手法を開発し,異なるタイプのモデルに適用した。
本研究では,時間的コヒーレンスによるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 24.61762520189921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal ML models can process data in multiple modalities (e.g., video,
images, audio, text) and are useful for video content analysis in a variety of
problems (e.g., object detection, scene understanding). In this paper, we focus
on the problem of video categorization by using a multimodal approach. We have
developed a novel temporal coherence-based regularization approach, which
applies to different types of models (e.g., RNN, NetVLAD, Transformer). We
demonstrate through experiments how our proposed multimodal video
categorization models with temporal coherence out-perform strong
state-of-the-art baseline models.
- Abstract(参考訳): マルチモーダルMLモデルは、複数のモード(ビデオ、画像、オーディオ、テキストなど)でデータを処理でき、様々な問題(オブジェクト検出、シーン理解など)におけるビデオコンテンツ分析に有用である。
本稿では,マルチモーダルアプローチによるビデオ分類の問題に着目する。
我々は、異なるタイプのモデル(例えば、RNN、NetVLAD、Transformer)に適用可能な、新しい時間的コヒーレンスに基づく正規化手法を開発した。
本研究では,時間的コヒーレンスによるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning
from AI Feedback [41.528462125628266]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Learning multi-modal generative models with permutation-invariant
encoders and tighter variational bounds [6.062751776009752]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では、データログのような境界を厳格に下げることができる変動境界について考察する。
我々は、異なるモダリティから符号化された特徴を組み合わせることで、PoE や MoE のアプローチを一般化するより柔軟なアグリゲーションスキームを開発する。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Frame Aggregation and Multi-Modal Fusion Framework for Video-Based
Person Recognition [13.875674649636874]
ビデオに基づく人物認識のためのフレームアグリゲーションとマルチモーダルフュージョン(FAMF)フレームワークを提案する。
FAMFは顔の特徴を集約し、ビデオ内の人物を特定するためのマルチモーダル情報を組み込む。
本稿では,NetVLADにアテンション機構を導入することで,低品質フレームの影響を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2020-10-19T08:06:40Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - Cross-modal Learning for Multi-modal Video Categorization [24.61762520189921]
マルチモーダル機械学習(ML)モデルは、複数のモーダルでデータを処理できる。
本稿では,マルチモーダルML技術を用いたビデオ分類の問題に焦点をあてる。
本稿では,クロスモーダル学習によるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T03:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。