論文の概要: Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes
- arxiv url: http://arxiv.org/abs/2407.10957v1
- Date: Mon, 15 Jul 2024 17:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:00:49.014951
- Title: Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes
- Title(参考訳): Ref-AVS:オーディオ映像シーンにおける参照オブジェクトとセグメントオブジェクト
- Authors: Yaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu,
- Abstract要約: 参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
- 参考スコア(独自算出の注目度): 11.575313825919205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional reference segmentation tasks have predominantly focused on silent visual scenes, neglecting the integral role of multimodal perception and interaction in human experiences. In this work, we introduce a novel task called Reference Audio-Visual Segmentation (Ref-AVS), which seeks to segment objects within the visual domain based on expressions containing multimodal cues. Such expressions are articulated in natural language forms but are enriched with multimodal cues, including audio and visual descriptions. To facilitate this research, we construct the first Ref-AVS benchmark, which provides pixel-level annotations for objects described in corresponding multimodal-cue expressions. To tackle the Ref-AVS task, we propose a new method that adequately utilizes multimodal cues to offer precise segmentation guidance. Finally, we conduct quantitative and qualitative experiments on three test subsets to compare our approach with existing methods from related tasks. The results demonstrate the effectiveness of our method, highlighting its capability to precisely segment objects using multimodal-cue expressions. Dataset is available at \href{https://gewu-lab.github.io/Ref-AVS}{https://gewu-lab.github.io/Ref-AVS}.
- Abstract(参考訳): 伝統的な参照セグメンテーションタスクは、主にサイレントな視覚シーンに焦点を当てており、マルチモーダルな知覚と人間の体験における相互作用の不可欠な役割を無視している。
本稿では,マルチモーダルキューを含む表現に基づいて,視覚領域内のオブジェクトをセグメント化するRef-AVS(Reference Audio-Visual Segmentation)という新しいタスクを提案する。
このような表現は自然言語形式で表現されるが、音声や視覚的記述を含む多モーダルな手がかりが豊富である。
本研究では,対応するマルチモーダルキュー式に記述されたオブジェクトに対して,ピクセルレベルのアノテーションを提供するRef-AVSベンチマークを構築する。
Ref-AVSタスクに対処するために,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
最後に,3つのテストサブセットについて定量的,定性的な実験を行い,既存の手法と関連する課題を比較した。
提案手法の有効性を実証し,マルチモーダルキュー式を用いてオブジェクトを正確にセグメント化できることを強調した。
Dataset は \href{https://gewu-lab.github.io/Ref-AVS}{https://gewu-lab.github.io/Ref-AVS} で利用可能である。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Audio-Visual Instance Segmentation [14.10809424760213]
音声視覚インスタンスセグメンテーション(AVIS)と呼ばれる新しいマルチモーダルタスクを提案する。
AVISは、可聴ビデオ中の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することを目的としている。
AVISegという高品質なベンチマークを導入し、926の長ビデオで26のセマンティックカテゴリから90K以上のインスタンスマスクを含む。
論文 参考訳(メタデータ) (2023-10-28T13:37:52Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。