Fugu-MT 論文翻訳(概要): Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline

論文の概要: Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline

arxiv url: http://arxiv.org/abs/2303.12930v1
Date: Wed, 22 Mar 2023 22:00:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 16:18:30.872094
Title: Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline
Title（参考訳）: 非トリミングビデオにおけるDense-Localizing Audio-Visual Events:大規模ベンチマークとベースライン
Authors: Tiantian Geng, Teng Wang, Jinming Duan, Runmin Cong, Feng Zheng
Abstract要約: 本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
参考スコア（独自算出の注目度）: 53.07236039168652
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing audio-visual event localization (AVE) handles manually trimmed videos with only a single instance in each of them. However, this setting is unrealistic as natural videos often contain numerous audio-visual events with different categories. To better adapt to real-life applications, in this paper we focus on the task of dense-localizing audio-visual events, which aims to jointly localize and recognize all audio-visual events occurring in an untrimmed video. The problem is challenging as it requires fine-grained audio-visual scene and context understanding. To tackle this problem, we introduce the first Untrimmed Audio-Visual (UnAV-100) dataset, which contains 10K untrimmed videos with over 30K audio-visual events. Each video has 2.8 audio-visual events on average, and the events are usually related to each other and might co-occur as in real-life scenes. Next, we formulate the task using a new learning-based framework, which is capable of fully integrating audio and visual modalities to localize audio-visual events with various lengths and capture dependencies between them in a single pass. Extensive experiments demonstrate the effectiveness of our method as well as the significance of multi-scale cross-modal perception and dependency modeling for this task.
Abstract（参考訳）: 既存のオーディオ視覚イベントローカライゼーション(AVE)は、手動でトリミングされたビデオを処理する。しかし、この設定は非現実的であり、自然ビデオは様々なカテゴリーの多数のオーディオ視覚イベントを含むことが多い。本稿では,実生活の応用をよりよくするために,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,密集した音声視覚イベントのタスクに焦点をあてる。この問題は、きめ細かいオーディオ視覚シーンとコンテキスト理解を必要とするため、難しい。この問題に対処するために,最初のUntrimmed Audio-Visual (UnAV-100)データセットを導入する。各ビデオには平均して2.8の映像イベントがあり、イベントは通常互いに関連しており、現実のシーンのように共起する可能性がある。次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。提案手法の有効性と,マルチスケールクロスモーダル知覚と依存性モデリングの意義を実証する実験を行った。

関連論文リスト

Aligned Better, Listen Better for Audio-Visual Large Language Models [21.525317311280205]
ビデオには本質的に音声が含まれており、視覚に情報を提供する。ビデオ大言語モデル(ビデオ-LLM)は多くのオーディオ中心の設定に遭遇する。既存のモデルは、音声情報を利用するのに欠陥があり、理解と幻覚が弱い。
論文参考訳（メタデータ） (2025-04-02T18:47:09Z)
Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup [2.80888070977859]
映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。 UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2025-03-04T05:13:56Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文参考訳（メタデータ） (2024-04-04T03:28:57Z)
Audio-Visual Instance Segmentation [14.10809424760213]
音声視覚インスタンスセグメンテーション(AVIS)と呼ばれる新しいマルチモーダルタスクを提案する。 AVISは、可聴ビデオ中の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することを目的としている。 AVISegという高品質なベンチマークを導入し、926の長ビデオで26のセマンティックカテゴリから90K以上のインスタンスマスクを含む。
論文参考訳（メタデータ） (2023-10-28T13:37:52Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文参考訳（メタデータ） (2023-04-12T04:17:45Z)
Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文参考訳（メタデータ） (2021-11-05T14:35:08Z)
Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文参考訳（メタデータ） (2020-11-03T16:20:04Z)
Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文参考訳（メタデータ） (2020-03-17T15:15:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。