論文の概要: 2nd of the 5th PVUW MeViS-Audio Track: ASR-SaSaSa2VA
- arxiv url: http://arxiv.org/abs/2604.23935v1
- Date: Mon, 27 Apr 2026 01:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.684483
- Title: 2nd of the 5th PVUW MeViS-Audio Track: ASR-SaSaSa2VA
- Title(参考訳): 第5回PVUW MeViSオーディオトラック:ASR-SaSa2VA
- Authors: Zhiyu Wang, Xudong Kang, Shutao Li,
- Abstract要約: 本稿では、音声誘導ビデオセグメンテーションのためのリソース効率の高いフレームワークであるASR-SaSa2VAを提案する。
第5回PVUWチャレンジ(MeViS-v2-Audioトラック)で最終スコア80.7を獲得し,第2位を獲得した。
- 参考スコア(独自算出の注目度): 47.992210130090065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-based video object segmentation aims to locate and segment objects in videos conditioned on audio cues, requiring precise understanding of both appearance and motion. Recent audio-driven video segmentation methods extend MLLMs by fusing audio and visual features for end-to-end localization. Despite their promise, these approaches are computationally intensive, struggle with aligning temporal audio cues to dynamic video content, and depend on large paired audio-video datasets. To address these challenges, we present ASR-SaSaSa2VA, a resource-efficient framework for audio-guided video segmentation. The key idea is to convert audio inputs into textual motion descriptions via automatic speech recognition (ASR) models and then leverage pre-trained text-based referring video segmentation models (e.g., SaSaSa2VA) for pixel-level predictions. To further enhance robustness, we incorporate a no-target expression detection module, implemented by a fine-tuned audio-based MLLM, which filters out audio clips that do not refer to any target object. This design allows the system to exploit strong pre-trained models while effectively handling ambiguous or irrelevant audio inputs. Our approach achieves a final score of 80.7 in the 5th PVUW Challenge (MeViS-v2-Audio track), earning the second-place ranking.
- Abstract(参考訳): オーディオベースのビデオオブジェクトセグメンテーションは、オーディオキューで条件付けられたビデオ内のオブジェクトの特定とセグメンテーションを目的としており、外観と動きの両方を正確に理解する必要がある。
最近の音声駆動ビデオセグメンテーション手法は、音声と視覚機能を融合してMLLMを拡張し、エンドツーエンドのローカライゼーションを実現している。
それらの約束にもかかわらず、これらのアプローチは計算集約的で、時間的オーディオキューと動的なビデオコンテンツとの整合に苦慮し、大きなペアのオーディオビデオデータセットに依存している。
これらの課題に対処するために、オーディオ誘導ビデオセグメンテーションのためのリソース効率の高いフレームワークであるASR-SaSa2VAを提案する。
鍵となるアイデアは、音声入力を自動音声認識(ASR)モデルでテキストモーション記述に変換し、事前訓練されたテキストベースの参照ビデオセグメンテーションモデル(例:SaSaSa2VA)をピクセルレベルの予測に利用することである。
さらにロバスト性を高めるために、ターゲットオブジェクトを参照しない音声クリップをフィルタリングする、微調整された音声ベースMLLMによって実装されたno-target式検出モジュールを組み込んだ。
この設計により、システムは強い事前訓練されたモデルを利用して、曖昧または無関係なオーディオ入力を効果的に処理できる。
第5回PVUWチャレンジ(MeViS-v2-Audioトラック)で最終スコア80.7を獲得し,第2位を獲得した。
関連論文リスト
- 3rd Place of MeViS-Audio Track of the 5th PVUW: VIRST-Audio [6.447274127678917]
VIRST-Audioは、事前訓練されたOSモデルと視覚言語アーキテクチャを統合したフレームワークである。
入力音声をASRモジュールを用いてテキストに変換し,テキストベースでセグメンテーションを行う。
VIRST-Audioが3位となる第5回PVUWチャレンジのMeViS-Audioトラックに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-03-24T12:23:10Z) - Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [58.640807985155554]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文 参考訳(メタデータ) (2025-08-06T09:58:43Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。
そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。
音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文 参考訳(メタデータ) (2025-07-07T13:01:50Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。