Fugu-MT 論文翻訳(概要): UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization

論文の概要: UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization

arxiv url: http://arxiv.org/abs/2404.03179v2
Date: Mon, 12 Aug 2024 03:31:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 23:27:39.171974
Title: UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization
Title（参考訳）: UniAV:マルチタスクビデオイベントローカライゼーションのための統一型オーディオ・ビジュアル・パーセプション
Authors: Tiantian Geng, Teng Wang, Yanfu Zhang, Jinming Duan, Weili Guan, Feng Zheng, Ling shao,
Abstract要約: ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
参考スコア（独自算出の注目度）: 83.89550658314741
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video localization tasks aim to temporally locate specific instances in videos, including temporal action localization (TAL), sound event detection (SED) and audio-visual event localization (AVEL). Existing methods over-specialize on each task, overlooking the fact that these instances often occur in the same video to form the complete video content. In this work, we present UniAV, a Unified Audio-Visual perception network, to achieve joint learning of TAL, SED and AVEL tasks for the first time. UniAV can leverage diverse data available in task-specific datasets, allowing the model to learn and share mutually beneficial knowledge across tasks and modalities. To tackle the challenges posed by substantial variations in datasets (size/domain/duration) and distinct task characteristics, we propose to uniformly encode visual and audio modalities of all videos to derive generic representations, while also designing task-specific experts to capture unique knowledge for each task. Besides, we develop a unified language-aware classifier by utilizing a pre-trained text encoder, enabling the model to flexibly detect various types of instances and previously unseen ones by simply changing prompts during inference. UniAV outperforms its single-task counterparts by a large margin with fewer parameters, achieving on-par or superior performances compared to state-of-the-art task-specific methods across ActivityNet 1.3, DESED and UnAV-100 benchmarks.
Abstract（参考訳）: ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。既存の方法はタスクごとに過度に特殊化され、これらのインスタンスが同じビデオ内でしばしば発生し、完全なビデオコンテンツを形成するという事実を見落としている。そこで本研究では, TAL, SED, AVELタスクの協調学習を初めて行うために, Unified Audio-Visual Recognition Network (UniAV) を提案する。 UniAVはタスク固有のデータセットで利用可能な多様なデータを活用することができ、モデルがタスクやモダリティ間で相互に有益な知識を学習し、共有することができる。データセット(サイズ/ドメイン/デュレーション)とタスク特性の相違による課題に対処するため,全ビデオの視覚的・音声的モダリティを一様にエンコードして汎用表現を導出するとともに,タスク固有の専門家を設計し,各タスクのユニークな知識を捉えることを提案する。さらに,事前学習したテキストエンコーダを利用して,様々なタイプのインスタンスを柔軟に検出し,推論中のプロンプトを単純に変更することで,従来は見つからなかったものを認識できる統一型言語認識分類器を開発した。 UniAVは、ActivityNet 1.3、DESED、UnAV-100ベンチマークをまたいだ最先端のタスク固有のメソッドと比較して、パラメータの少ないシングルタスクよりもパフォーマンスが優れている。

関連論文リスト

Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。 SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文参考訳（メタデータ） (2025-11-22T09:09:22Z)
TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding [83.96715649130435]
VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
論文参考訳（メタデータ） (2025-08-03T10:03:58Z)
V$^2$Dial: Unification of Video and Visual Dialog via Multimodal Experts [44.33388344586592]
V$2$Dialは、マルチモーダルな会話タスクのための画像とビデオの入力データを同時に扱うための、エキスパートベースの新しいモデルである。本稿では,画像とビデオの空間的特徴と時間的特徴を共同で学習する単一モデルを用いて,両方のタスクを統合することを提案する。
論文参考訳（メタデータ） (2025-03-03T21:27:38Z)
JoVALE: Detecting Human Actions in Video Using Audiovisual and Language Contexts [8.463489896549161]
ビデオアクション検出(VAD)は、ビデオ内のアクションインスタンスのローカライズと分類を行う。我々は、JoVALE(Joint Actor-centric Visual, Audio, Language)と呼ばれる新しいマルチモーダルVADアーキテクチャを導入する。 JoVALEは、大容量画像キャプションモデルから生成されたシーン記述コンテキストとオーディオと視覚機能を統合する最初のVAD手法である。
論文参考訳（メタデータ） (2024-12-18T10:51:31Z)
Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文参考訳（メタデータ） (2023-09-08T16:33:27Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文参考訳（メタデータ） (2023-03-22T22:00:17Z)
MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文参考訳（メタデータ） (2023-02-16T04:00:03Z)
Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文参考訳（メタデータ） (2022-03-06T17:31:06Z)
Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文参考訳（メタデータ） (2022-02-12T02:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。