論文の概要: PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling
- arxiv url: http://arxiv.org/abs/2505.23155v1
- Date: Thu, 29 May 2025 06:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.717884
- Title: PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling
- Title(参考訳): PreFM:予測予測モデルによるオンラインオーディオ・ビジュアルイベント解析
- Authors: Xiao Yu, Yan Fang, Xiaojie Jin, Yao Zhao, Yunchao Wei,
- Abstract要約: On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。
本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。
実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
- 参考スコア(独自算出の注目度): 78.61911985138795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual event parsing plays a crucial role in understanding multimodal video content, but existing methods typically rely on offline processing of entire videos with huge model sizes, limiting their real-time applicability. We introduce Online Audio-Visual Event Parsing (On-AVEP), a novel paradigm for parsing audio, visual, and audio-visual events by sequentially analyzing incoming video streams. The On-AVEP task necessitates models with two key capabilities: (1) Accurate online inference, to effectively distinguish events with unclear and limited context in online settings, and (2) Real-time efficiency, to balance high performance with computational constraints. To cultivate these, we propose the Predictive Future Modeling (PreFM) framework featured by (a) predictive multimodal future modeling to infer and integrate beneficial future audio-visual cues, thereby enhancing contextual understanding and (b) modality-agnostic robust representation along with focal temporal prioritization to improve precision and generalization. Extensive experiments on the UnAV-100 and LLP datasets show PreFM significantly outperforms state-of-the-art methods by a large margin with significantly fewer parameters, offering an insightful approach for real-time multimodal video understanding. Code is available at https://github.com/XiaoYu-1123/PreFM.
- Abstract(参考訳): 音声-視覚的イベント解析は、マルチモーダルなビデオコンテンツを理解する上で重要な役割を果たすが、既存の手法は、通常、巨大なモデルサイズでビデオ全体のオフライン処理に依存し、リアルタイムな適用性を制限する。
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。
On-AVEPタスクは、(1)オンライン推論の精度、2)オンライン設定における不明瞭で限られたコンテキストのイベントを効果的に識別する、(2)リアルタイム効率、ハイパフォーマンスと計算制約のバランスをとる、という2つの重要な機能を持つモデルを必要とする。
これらを育成するために,予測未来モデリング(PreFM)フレームワークを提案する。
(a)予測的マルチモーダル・フューチャーモデリングにより、有益な未来の音声・視覚的手がかりを推測し、統合し、文脈的理解を高め、統合する
b) モーダリティに依存しないロバスト表現と焦点時間優先順位付けは精度と一般化を改善する。
UnAV-100 と LLP データセットの大規模な実験により、PreFM は最先端の手法を大幅に上回り、パラメータは大幅に少なく、リアルタイムマルチモーダルビデオ理解のための洞察に富んだアプローチを提供する。
コードはhttps://github.com/XiaoYu-1123/PreFMで入手できる。
関連論文リスト
- Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds [72.83227312675174]
本稿では,音声・視覚的事象知覚領域に対するモデルに依存しないアプローチを提案する。
我々のアプローチには、よりリッチなマルチモーダル相互作用を維持するためのスコアレベル融合技術が含まれている。
また,音声・視覚イベント知覚のための学習自由なオープン語彙ベースラインも提示する。
論文 参考訳(メタデータ) (2025-03-17T20:06:48Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization [14.103742565510387]
AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
論文 参考訳(メタデータ) (2022-10-11T00:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。