論文の概要: JoVALE: Detecting Human Actions in Video Using Audiovisual and Language Contexts
- arxiv url: http://arxiv.org/abs/2412.13708v2
- Date: Mon, 03 Feb 2025 12:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:55.623990
- Title: JoVALE: Detecting Human Actions in Video Using Audiovisual and Language Contexts
- Title(参考訳): JoVALE: 視聴覚と言語コンテキストを用いたビデオ中のヒューマンアクションの検出
- Authors: Taein Son, Soo Won Seo, Jisong Kim, Seok Hwan Lee, Jun Won Choi,
- Abstract要約: ビデオアクション検出(VAD)は、ビデオ内のアクションインスタンスのローカライズと分類を行う。
我々は、JoVALE(Joint Actor-centric Visual, Audio, Language)と呼ばれる新しいマルチモーダルVADアーキテクチャを導入する。
JoVALEは、大容量画像キャプションモデルから生成されたシーン記述コンテキストとオーディオと視覚機能を統合する最初のVAD手法である。
- 参考スコア(独自算出の注目度): 8.463489896549161
- License:
- Abstract: Video Action Detection (VAD) entails localizing and categorizing action instances within videos, which inherently consist of diverse information sources such as audio, visual cues, and surrounding scene contexts. Leveraging this multi-modal information effectively for VAD poses a significant challenge, as the model must identify action-relevant cues with precision. In this study, we introduce a novel multi-modal VAD architecture, referred to as the Joint Actor-centric Visual, Audio, Language Encoder (JoVALE). JoVALE is the first VAD method to integrate audio and visual features with scene descriptive context sourced from large-capacity image captioning models. At the heart of JoVALE is the actor-centric aggregation of audio, visual, and scene descriptive information, enabling adaptive integration of crucial features for recognizing each actor's actions. We have developed a Transformer-based architecture, the Actor-centric Multi-modal Fusion Network, specifically designed to capture the dynamic interactions among actors and their multi-modal contexts. Our evaluation on three prominent VAD benchmarks, including AVA, UCF101-24, and JHMDB51-21, demonstrates that incorporating multi-modal information significantly enhances performance, setting new state-of-the-art performances in the field.
- Abstract(参考訳): ビデオアクション検出(VAD)では、ビデオ内のアクションインスタンスのローカライズと分類を行う。
VADのためにこのマルチモーダル情報を効果的に活用することは、モデルが精度の高いアクション関連キューを識別する必要があるため、大きな課題となる。
本研究では,JoVALE(Joint Actor-centric Visual, Audio, Language Encoder)と呼ばれる新しいマルチモーダルVADアーキテクチャを提案する。
JoVALEは、大容量画像キャプションモデルから生成されたシーン記述コンテキストとオーディオと視覚機能を統合する最初のVAD手法である。
JoVALEの中心は、アクター中心のオーディオ、視覚、シーン記述情報の集約であり、各アクターの行動を認識するために重要な機能の適応的な統合を可能にする。
我々は,アクター中心のマルチモーダルフュージョンネットワークであるTransformerベースのアーキテクチャを開発した。
AVA, UCF101-24, JHMDB51-21を含む3つの顕著なVADベンチマークの評価により, マルチモーダル情報の導入により性能が大幅に向上し, 現場に新たな最先端性能が確立された。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。
本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文 参考訳(メタデータ) (2024-04-04T03:28:57Z) - MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using
Transformers [18.72489078928417]
オーディオ画像とビデオのモダリティを組み合わせた新しいモデルを提案する。
このモデルは、オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。
ベンチマーク動作認識データセット上で実施した経験的評価は,そのモデルの顕著な性能を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-01T11:00:25Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。