論文の概要: Audio-Visual Instance Segmentation
- arxiv url: http://arxiv.org/abs/2310.18709v1
- Date: Sat, 28 Oct 2023 13:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:52:38.881035
- Title: Audio-Visual Instance Segmentation
- Title(参考訳): 音声と視覚のインスタンスセグメンテーション
- Authors: Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua
Ying
- Abstract要約: 我々は,新しいマルチモーダルタスク,すなわち音声視覚インスタンスセグメンテーション(AVIS)を提案する。
目標は、可聴ビデオ内の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することである。
私たちの知る限り、インスタンスセグメンテーションがオーディオ視覚領域に拡張されたのはこれが初めてです。
- 参考スコア(独自算出の注目度): 11.25619190194146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new multi-modal task, namely audio-visual
instance segmentation (AVIS), in which the goal is to identify, segment, and
track individual sounding object instances in audible videos, simultaneously.
To our knowledge, it is the first time that instance segmentation has been
extended into the audio-visual domain. To better facilitate this research, we
construct the first audio-visual instance segmentation benchmark (AVISeg).
Specifically, AVISeg consists of 1,258 videos with an average duration of 62.6
seconds from YouTube and public audio-visual datasets, where 117 videos have
been annotated by using an interactive semi-automatic labeling tool based on
the Segment Anything Model (SAM). In addition, we present a simple baseline
model for the AVIS task. Our new model introduces an audio branch and a
cross-modal fusion module to Mask2Former to locate all sounding objects.
Finally, we evaluate the proposed method using two backbones on AVISeg. We
believe that AVIS will inspire the community towards a more comprehensive
multi-modal understanding.
- Abstract(参考訳): 本稿では,音声と視覚のインスタンスのセグメンテーション(avis, audio-visual instance segmentation)というマルチモーダルタスクを提案する。
私たちの知る限り、インスタンスセグメンテーションがオーディオ視覚領域に拡張されたのはこれが初めてです。
本研究を円滑に進めるため,AVISeg (Audio-visual instance segmentation benchmark) を構築した。
具体的には、AVISegは、YouTubeと公開オーディオビジュアルデータセットから平均62.6秒の1,258の動画で構成され、117の動画がSegment Anything Model (SAM)に基づいたインタラクティブな半自動ラベリングツールを使用して注釈付けされている。
さらに,AVISタスクのためのシンプルなベースラインモデルを提案する。
新たなモデルでは,モーダル融合モジュールとオーディオブランチをMask2Formerに導入し,全ての音源を探索する。
最後に,AVISeg上の2つのバックボーンを用いて提案手法の評価を行った。
AVISはコミュニティに、より包括的なマルチモーダルな理解を促すだろうと考えています。
関連論文リスト
- Weakly-Supervised Audio-Visual Segmentation [44.632423828359315]
Weakly-Supervised Audio-Visual framework,すなわちWS-AVSを提案する。
AVSBenchの実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を実証している。
論文 参考訳(メタデータ) (2023-11-25T17:18:35Z) - Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。
我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。
提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文 参考訳(メタデータ) (2023-09-18T05:58:06Z) - AV-SAM: Segment Anything Model Meets Audio-Visual Localization and
Segmentation [30.756247389435803]
Segment Anything Model (SAM)は、視覚的セグメンテーションタスクにおいて、その強力な効果を示した。
AV-SAMをベースとした,音声に対応する音質オブジェクトマスクを生成可能なフレームワークを提案する。
Flickr-SoundNet と AVSBench のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-03T00:33:52Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Object Segmentation with Audio Context [0.5243460995467893]
本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。
ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
論文 参考訳(メタデータ) (2023-01-04T01:33:42Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。