Fugu-MT 論文翻訳(概要): Audio-Visual Instance Segmentation

論文の概要: Audio-Visual Instance Segmentation

arxiv url: http://arxiv.org/abs/2310.18709v1
Date: Sat, 28 Oct 2023 13:37:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:52:38.881035
Title: Audio-Visual Instance Segmentation
Title（参考訳）: 音声と視覚のインスタンスセグメンテーション
Authors: Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua Ying
Abstract要約: 我々は,新しいマルチモーダルタスク,すなわち音声視覚インスタンスセグメンテーション(AVIS)を提案する。目標は、可聴ビデオ内の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することである。私たちの知る限り、インスタンスセグメンテーションがオーディオ視覚領域に拡張されたのはこれが初めてです。
参考スコア（独自算出の注目度）: 11.25619190194146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a new multi-modal task, namely audio-visual instance segmentation (AVIS), in which the goal is to identify, segment, and track individual sounding object instances in audible videos, simultaneously. To our knowledge, it is the first time that instance segmentation has been extended into the audio-visual domain. To better facilitate this research, we construct the first audio-visual instance segmentation benchmark (AVISeg). Specifically, AVISeg consists of 1,258 videos with an average duration of 62.6 seconds from YouTube and public audio-visual datasets, where 117 videos have been annotated by using an interactive semi-automatic labeling tool based on the Segment Anything Model (SAM). In addition, we present a simple baseline model for the AVIS task. Our new model introduces an audio branch and a cross-modal fusion module to Mask2Former to locate all sounding objects. Finally, we evaluate the proposed method using two backbones on AVISeg. We believe that AVIS will inspire the community towards a more comprehensive multi-modal understanding.
Abstract（参考訳）: 本稿では,音声と視覚のインスタンスのセグメンテーション(avis, audio-visual instance segmentation)というマルチモーダルタスクを提案する。私たちの知る限り、インスタンスセグメンテーションがオーディオ視覚領域に拡張されたのはこれが初めてです。本研究を円滑に進めるため,AVISeg (Audio-visual instance segmentation benchmark) を構築した。具体的には、AVISegは、YouTubeと公開オーディオビジュアルデータセットから平均62.6秒の1,258の動画で構成され、117の動画がSegment Anything Model (SAM)に基づいたインタラクティブな半自動ラベリングツールを使用して注釈付けされている。さらに,AVISタスクのためのシンプルなベースラインモデルを提案する。新たなモデルでは,モーダル融合モジュールとオーディオブランチをMask2Formerに導入し,全ての音源を探索する。最後に,AVISeg上の2つのバックボーンを用いて提案手法の評価を行った。 AVISはコミュニティに、より包括的なマルチモーダルな理解を促すだろうと考えています。

関連論文リスト

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文参考訳（メタデータ） (2025-01-14T03:20:20Z)
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。 Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文参考訳（メタデータ） (2024-07-15T17:54:45Z)
Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文参考訳（メタデータ） (2024-06-10T10:53:23Z)
Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文参考訳（メタデータ） (2024-06-09T03:38:21Z)
Weakly-Supervised Audio-Visual Segmentation [44.632423828359315]
Weakly-Supervised Audio-Visual framework,すなわちWS-AVSを提案する。 AVSBenchの実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を実証している。
論文参考訳（メタデータ） (2023-11-25T17:18:35Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文参考訳（メタデータ） (2023-09-13T05:05:47Z)
Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文参考訳（メタデータ） (2023-03-22T22:00:17Z)
Object Segmentation with Audio Context [0.5243460995467893]
本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
論文参考訳（メタデータ） (2023-01-04T01:33:42Z)
Look Before You Match: Instance Understanding Matters in Video Object Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文参考訳（メタデータ） (2022-12-13T18:59:59Z)
Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文参考訳（メタデータ） (2022-07-11T17:50:36Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。