論文の概要: From Waveforms to Pixels: A Survey on Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2508.03724v1
- Date: Tue, 29 Jul 2025 22:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.329148
- Title: From Waveforms to Pixels: A Survey on Audio-Visual Segmentation
- Title(参考訳): 波形からピクセルへ:オーディオ・ビジュアル・セグメンテーションに関する調査
- Authors: Jia Li, Yapeng Tian,
- Abstract要約: Audio-Visualは、ビジュアルとオーディオの両方のモダリティを活用して、ビデオ内の音声生成オブジェクトを識別し、セグメント化することを目的としている。
本稿では、AVS分野の概要を概説し、その問題定式化、ベンチマークデータセット、評価指標、方法論の進歩について述べる。
- 参考スコア(独自算出の注目度): 43.79010208565961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Segmentation (AVS) aims to identify and segment sound-producing objects in videos by leveraging both visual and audio modalities. It has emerged as a significant research area in multimodal perception, enabling fine-grained object-level understanding. In this survey, we present a comprehensive overview of the AVS field, covering its problem formulation, benchmark datasets, evaluation metrics, and the progression of methodologies. We analyze a wide range of approaches, including architectures for unimodal and multimodal encoding, key strategies for audio-visual fusion, and various decoder designs. Furthermore, we examine major training paradigms, from fully supervised learning to weakly supervised and training-free methods. Notably, we provide an extensive comparison of AVS methods across standard benchmarks, highlighting the impact of different architectural choices, fusion strategies, and training paradigms on performance. Finally, we outline the current challenges, such as limited temporal modeling, modality bias toward vision, lack of robustness in complex environments, and high computational demands, and propose promising future directions, including improving temporal reasoning and multimodal fusion, leveraging foundation models for better generalization and few-shot learning, reducing reliance on labeled data through selfand weakly supervised learning, and incorporating higher-level reasoning for more intelligent AVS systems.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション (AVS) は、視覚とオーディオの両方のモダリティを活用して、映像中の音声を識別し、セグメンテーションすることを目的としている。
マルチモーダル知覚において重要な研究領域として現れ、微粒なオブジェクトレベルの理解を可能にしている。
本稿では、AVS分野の概要を概観し、その問題定式化、ベンチマークデータセット、評価指標、方法論の進歩について述べる。
我々は、一様および多モード符号化のためのアーキテクチャ、音声-視覚融合のための鍵となる戦略、様々なデコーダの設計など、幅広いアプローチを解析する。
さらに、完全教師付き学習から弱教師付き・無訓練手法に至るまで、主要な訓練パラダイムについて検討する。
特に、標準ベンチマーク間でのAVSメソッドの広範な比較を提供し、異なるアーキテクチャ選択、融合戦略、およびトレーニングパラダイムがパフォーマンスに与える影響を強調します。
最後に、時間的モデリング、視覚に対するモダリティバイアス、複雑な環境における堅牢性の欠如、高い計算要求といった現在の課題を概説し、時間的推論とマルチモーダル融合の改善、より良い一般化と少数ショット学習のための基礎モデルの活用、自己および弱教師付き学習によるラベル付きデータへの依存の低減、よりインテリジェントなAVSシステムへの高レベル推論の導入など、将来的な方向性を提案する。
関連論文リスト
- A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects [53.15503034595476]
Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。
VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
論文 参考訳(メタデータ) (2025-06-16T14:39:03Z) - A Systematic Investigation on Deep Learning-Based Omnidirectional Image and Video Super-Resolution [30.62413133817583]
本稿では,全方位画像とビデオ超解像の最近の進歩を体系的に概観する。
新しいデータセットである360Instaを導入し、全方位画像とビデオをオーステンシャルに劣化させた。
提案したデータセットと公開データセットの両方において,既存手法の総合的質的,定量的評価を行う。
論文 参考訳(メタデータ) (2025-06-07T08:24:44Z) - Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。
提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文 参考訳(メタデータ) (2025-06-06T21:06:35Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。