論文の概要: AV-Unified: A Unified Framework for Audio-visual Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.06530v1
- Date: Fri, 06 Mar 2026 18:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.380799
- Title: AV-Unified: A Unified Framework for Audio-visual Scene Understanding
- Title(参考訳): AV-Unified: 視覚的シーン理解のための統一フレームワーク
- Authors: Guangyao Li, Xin Wang, Wenwu Zhu,
- Abstract要約: AV-Unifiedは、幅広い音声・視覚シーン理解タスク間で共同学習を可能にするフレームワークである。
我々は、これらを個別のトークンのシーケンスに変換することで、サポート対象のタスクの入力と出力を統一する。
視覚領域における聴覚監督の欠如を克服するため,モーダル間誘導に基づく空間知覚モジュールを設計する。
- 参考スコア(独自算出の注目度): 37.966403423498456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When humans perceive the world, they naturally integrate multiple audio-visual tasks within dynamic, real-world scenes. However, current works such as event localization, parsing, segmentation and question answering are mostly explored individually, making it challenging to comprehensively understand complex audio-visual scenes and explore inter-task relationships. Hence, we propose \textbf{AV-Unified}, a unified framework that enables joint learning across a wide range of audio-visual scene understanding tasks. AV-Unified standardizes the diverse input-output formats of each task and incorporates a multi-scale spatiotemporal perception network to effectively capture audio-visual associations. Specifically, we unify the inputs and outputs of all supported tasks by converting them into sequences of discrete tokens, establishing a shared representation that allows a single architecture to be trained jointly across heterogeneous varied datasets. Considering the varying temporal granularity of audio-visual events, a multi-scale temporal perception module is designed to capture key cues. Meanwhile, to overcome the lack of auditory supervision in the visual domain, we design a cross-modal guidance-based spatial perception module that models spatial audio-visual associations. Furthermore, task-specific text prompts are employed to enhance the model's adaptability and task-awareness. Extensive experiments on benchmark datasets (e.g., AVE, LLP, MUSIC-AVQA, VGG-SS and AVS) demonstrate the effectiveness of AV-Unified across temporal, spatial, and spatiotemporal tasks.
- Abstract(参考訳): 人間が世界を認識すると、自然に複数の視覚的タスクをダイナミックで現実世界のシーンに組み込む。
しかしながら、イベントローカライゼーション、パース、セグメンテーション、質問応答といった現在の研究はほとんど個別に検討されており、複雑な音声・視覚シーンを包括的に理解し、タスク間の関係を探求することは困難である。
そこで本稿では,多様な視覚的シーン理解タスクを対象とした共同学習を実現する統合フレームワークである‘textbf{AV-Unified} を提案する。
AV-Unifiedは、各タスクの多様な入力出力フォーマットを標準化し、音声と視覚の関連性を効果的に捉えるために、マルチスケールの時空間知覚ネットワークを組み込んでいる。
具体的には、各タスクのインプットとアウトプットを個別のトークンのシーケンスに変換することで統一し、異種多様なデータセット間で単一のアーキテクチャを共同でトレーニングする共有表現を確立する。
音声・視覚イベントの時間的粒度の変化を考慮すると、キーキューを捉えるために、マルチスケールの時間知覚モジュールが設計されている。
一方,視覚領域における聴覚の監督の欠如を克服するため,空間音響・視覚関連をモデル化したモーダル間誘導に基づく空間知覚モジュールを設計した。
さらに、モデルの適応性とタスク認識性を高めるために、タスク固有のテキストプロンプトが使用される。
ベンチマークデータセット(例えば、AVE、LPP、MUSIC-AVQA、VGG-SS、AVS)の大規模な実験は、時間的、空間的、時空間的タスクにわたるAV統一の有効性を実証している。
関連論文リスト
- Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound [5.591620304505415]
この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。
マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。
本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2025-11-30T13:11:56Z) - Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。
提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文 参考訳(メタデータ) (2025-06-06T21:06:35Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。
本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文 参考訳(メタデータ) (2024-04-04T03:28:57Z) - Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding [36.20990265600332]
PU-VALORは114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。
PU-VALORは、イベントベースのビデオクラスタリングを含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生した。
AVicunaは、音声・視覚イベントを時間間隔と対応するテキストトークンに整列できるモデルである。
論文 参考訳(メタデータ) (2024-03-24T19:50:49Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。