論文の概要: Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline
- arxiv url: http://arxiv.org/abs/2303.12930v1
- Date: Wed, 22 Mar 2023 22:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 16:18:30.872094
- Title: Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline
- Title(参考訳): 非トリミングビデオにおけるDense-Localizing Audio-Visual Events:大規模ベンチマークとベースライン
- Authors: Tiantian Geng, Teng Wang, Jinming Duan, Runmin Cong, Feng Zheng
- Abstract要約: 本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
- 参考スコア(独自算出の注目度): 53.07236039168652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing audio-visual event localization (AVE) handles manually trimmed
videos with only a single instance in each of them. However, this setting is
unrealistic as natural videos often contain numerous audio-visual events with
different categories. To better adapt to real-life applications, in this paper
we focus on the task of dense-localizing audio-visual events, which aims to
jointly localize and recognize all audio-visual events occurring in an
untrimmed video. The problem is challenging as it requires fine-grained
audio-visual scene and context understanding. To tackle this problem, we
introduce the first Untrimmed Audio-Visual (UnAV-100) dataset, which contains
10K untrimmed videos with over 30K audio-visual events. Each video has 2.8
audio-visual events on average, and the events are usually related to each
other and might co-occur as in real-life scenes. Next, we formulate the task
using a new learning-based framework, which is capable of fully integrating
audio and visual modalities to localize audio-visual events with various
lengths and capture dependencies between them in a single pass. Extensive
experiments demonstrate the effectiveness of our method as well as the
significance of multi-scale cross-modal perception and dependency modeling for
this task.
- Abstract(参考訳): 既存のオーディオ視覚イベントローカライゼーション(AVE)は、手動でトリミングされたビデオを処理する。
しかし、この設定は非現実的であり、自然ビデオは様々なカテゴリーの多数のオーディオ視覚イベントを含むことが多い。
本稿では,実生活の応用をよりよくするために,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,密集した音声視覚イベントのタスクに焦点をあてる。
この問題は、きめ細かいオーディオ視覚シーンとコンテキスト理解を必要とするため、難しい。
この問題に対処するために,最初のUntrimmed Audio-Visual (UnAV-100)データセットを導入する。
各ビデオには平均して2.8の映像イベントがあり、イベントは通常互いに関連しており、現実のシーンのように共起する可能性がある。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
提案手法の有効性と,マルチスケールクロスモーダル知覚と依存性モデリングの意義を実証する実験を行った。
関連論文リスト
- UniAV: Unified Audio-Visual Perception for Multi-Task Video Localization [48.519331944795304]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。
本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文 参考訳(メタデータ) (2024-04-04T03:28:57Z) - AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue [35.603271710124424]
PU-VALORは114,000本以上の未編集ビデオと正確な時間的区切りを含む広帯域音声・視覚データセットである。
また,AVTI(Audio-Visual Tokens Interleaver)を特徴とするAVicunaについて述べる。
論文 参考訳(メタデータ) (2024-03-24T19:50:49Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Object Segmentation with Audio Context [0.5243460995467893]
本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。
ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
論文 参考訳(メタデータ) (2023-01-04T01:33:42Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。