論文の概要: AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2501.07810v1
- Date: Tue, 14 Jan 2025 03:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:21.139190
- Title: AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation
- Title(参考訳): AVS-Mamba:オーディオ・ビジュアル・セグメンテーションのためのテンポラル・マルチモーダル・マンバの探索
- Authors: Sitong Gong, Yunzhi Zhuge, Lu Zhang, Yifan Wang, Pingping Zhang, Lijun Wang, Huchuan Lu,
- Abstract要約: 音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
- 参考スコア(独自算出の注目度): 62.682428307810525
- License:
- Abstract: The essence of audio-visual segmentation (AVS) lies in locating and delineating sound-emitting objects within a video stream. While Transformer-based methods have shown promise, their handling of long-range dependencies struggles due to quadratic computational costs, presenting a bottleneck in complex scenarios. To overcome this limitation and facilitate complex multi-modal comprehension with linear complexity, we introduce AVS-Mamba, a selective state space model to address the AVS task. Our framework incorporates two key components for video understanding and cross-modal learning: Temporal Mamba Block for sequential video processing and Vision-to-Audio Fusion Block for advanced audio-vision integration. Building on this, we develop the Multi-scale Temporal Encoder, aimed at enhancing the learning of visual features across scales, facilitating the perception of intra- and inter-frame information. To perform multi-modal fusion, we propose the Modality Aggregation Decoder, leveraging the Vision-to-Audio Fusion Block to integrate visual features into audio features across both frame and temporal levels. Further, we adopt the Contextual Integration Pyramid to perform audio-to-vision spatial-temporal context collaboration. Through these innovative contributions, our approach achieves new state-of-the-art results on the AVSBench-object and AVSBench-semantic datasets. Our source code and model weights are available at AVS-Mamba.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション(AVS)の本質は、ビデオストリーム内の音源の特定と表示にある。
Transformerベースの手法は将来性を示しているが、2次計算コストによる長距離依存の扱いは困難であり、複雑なシナリオではボトルネックが生じる。
この制限を克服し、線形複雑性を伴う複雑なマルチモーダル理解を容易にするために、AVSタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
本フレームワークは,ビデオ理解とクロスモーダル学習のための2つの重要なコンポーネントを組み込んでいる。
そこで我々は,多段階のテンポラルエンコーダを開発し,フレーム内情報やフレーム間情報の認識を容易にし,視覚的特徴の学習を促進することを目的とした。
マルチモーダル・フュージョンを実現するために,ビジョン・ツー・オーディオ・フュージョン・ブロックを利用したモダリティ・アグリゲーション・デコーダを提案する。
さらに,音と視覚の空間・時間的コンテキストの協調を行うために,コンテキスト統合ピラミッドを採用する。
これらの革新的なコントリビューションを通じて,AVSBench-object と AVSBench-semantic データセット上で,最先端の新たな結果が得られる。
ソースコードとモデルの重み付けは、AVS-Mambaで利用可能です。
関連論文リスト
- Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。
ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。
提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T10:53:23Z) - Unsupervised Audio-Visual Segmentation with Modality Alignment [42.613786372067814]
Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T07:56:09Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。