論文の概要: Audio-visual Event Localization on Portrait Mode Short Videos
- arxiv url: http://arxiv.org/abs/2504.06884v1
- Date: Wed, 09 Apr 2025 13:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:00.359260
- Title: Audio-visual Event Localization on Portrait Mode Short Videos
- Title(参考訳): ポートレートモードショートビデオにおける音声・視覚イベントの定位
- Authors: Wuyang Liu, Yi Chai, Yongpeng Yan, Yanzhen Ren,
- Abstract要約: AVE-PMは、ポートレートモードのショートビデオに特化して設計された最初のAVELデータセットである。
最先端のAVEL法は、クロスモード評価において平均18.66%のパフォーマンス低下を被っている。
ポートレートモードビデオにおけるAVELの最適前処理レシピと背景音楽の影響について検討する。
- 参考スコア(独自算出の注目度): 2.929891500796793
- License:
- Abstract: Audio-visual event localization (AVEL) plays a critical role in multimodal scene understanding. While existing datasets for AVEL predominantly comprise landscape-oriented long videos with clean and simple audio context, short videos have become the primary format of online video content due to the the proliferation of smartphones. Short videos are characterized by portrait-oriented framing and layered audio compositions (e.g., overlapping sound effects, voiceovers, and music), which brings unique challenges unaddressed by conventional methods. To this end, we introduce AVE-PM, the first AVEL dataset specifically designed for portrait mode short videos, comprising 25,335 clips that span 86 fine-grained categories with frame-level annotations. Beyond dataset creation, our empirical analysis shows that state-of-the-art AVEL methods suffer an average 18.66% performance drop during cross-mode evaluation. Further analysis reveals two key challenges of different video formats: 1) spatial bias from portrait-oriented framing introduces distinct domain priors, and 2) noisy audio composition compromise the reliability of audio modality. To address these issues, we investigate optimal preprocessing recipes and the impact of background music for AVEL on portrait mode videos. Experiments show that these methods can still benefit from tailored preprocessing and specialized model design, thus achieving improved performance. This work provides both a foundational benchmark and actionable insights for advancing AVEL research in the era of mobile-centric video content. Dataset and code will be released.
- Abstract(参考訳): 視覚事象の局所化(AVEL)はマルチモーダルシーン理解において重要な役割を担っている。
AVELの既存のデータセットは主に、クリーンでシンプルなオーディオコンテキストを備えたランドスケープ指向のロングビデオで構成されているが、スマートフォンの普及により、ショートビデオはオンラインビデオコンテンツの主要なフォーマットとなっている。
ショートビデオは、ポートレート指向のフレーミングとレイヤー化されたオーディオ合成(例えば、重なり合うサウンドエフェクト、ボイスオーバー、音楽)によって特徴付けられる。
AVE-PMは、フレームレベルのアノテーションで86の細かいカテゴリにまたがる25,335のクリップからなる、ポートレートモードのショートビデオ用に設計された最初のAVELデータセットである。
データセット作成以外にも、我々の経験的分析は、最先端のAVEL手法がクロスモード評価中に平均18.66%のパフォーマンス低下を被っていることを示している。
さらなる分析により、異なるビデオフォーマットの2つの重要な課題が明らかになる。
1)ポートレート指向フレーミングによる空間バイアスは、異なる領域先行を導入し、
2)ノイズの多い音声合成は,音質の信頼性を損なう。
これらの問題に対処するため,AVELの背景音楽がポートレートモードビデオに与える影響について検討した。
実験により、これらの手法は、未処理の調整と特別なモデル設計の恩恵を受けられることが示され、性能が向上した。
この研究は、モバイル中心のビデオコンテンツの時代にAVELの研究を進めるための基礎的なベンチマークと実用的な洞察を提供する。
データセットとコードがリリースされる。
関連論文リスト
- Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。