論文の概要: Object Segmentation with Audio Context
- arxiv url: http://arxiv.org/abs/2301.10295v1
- Date: Wed, 4 Jan 2023 01:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-29 13:21:50.990829
- Title: Object Segmentation with Audio Context
- Title(参考訳): 音声コンテキストを用いたオブジェクトセグメンテーション
- Authors: Kaihui Zheng, Yuqing Ren, Zixin Shen, Tianxu Qin
- Abstract要約: 本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。
ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
- 参考スコア(独自算出の注目度): 0.5243460995467893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual objects often have acoustic signatures that are naturally synchronized
with them in audio-bearing video recordings. For this project, we explore the
multimodal feature aggregation for video instance segmentation task, in which
we integrate audio features into our video segmentation model to conduct an
audio-visual learning scheme. Our method is based on existing video instance
segmentation method which leverages rich contextual information across video
frames. Since this is the first attempt to investigate the audio-visual
instance segmentation, a novel dataset, including 20 vocal classes with
synchronized video and audio recordings, is collected. By utilizing combined
decoder to fuse both video and audio features, our model shows a slight
improvements compared to the base model. Additionally, we managed to show the
effectiveness of different modules by conducting extensive ablations.
- Abstract(参考訳): 視覚オブジェクトは、音響的シグネチャを持ち、音声付きビデオ記録で自然に同期する。
本稿では,ビデオインスタンス分割タスクのマルチモーダル機能集約について検討し,ビデオセグメント化モデルに音声機能を統合することで,音声視覚学習方式を提案する。
本手法は,ビデオフレーム間のリッチなコンテキスト情報を活用する既存のビデオインスタンスセグメンテーション手法に基づいている。
音声と視覚のインスタンスのセグメンテーションを調査する最初の試みであるため、同期ビデオと音声記録を備えた20のボーカルクラスを含む新しいデータセットが収集される。
ビデオとオーディオの両特徴を融合するためにデコーダを組み合わせることで,本モデルでは,ベースモデルに比べて若干改善されている。
さらに, 広範囲なアブレーションを行い, 異なるモジュールの有効性を示すことができた。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Audio-Visual Instance Segmentation [11.25619190194146]
我々は,新しいマルチモーダルタスク,すなわち音声視覚インスタンスセグメンテーション(AVIS)を提案する。
目標は、可聴ビデオ内の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することである。
私たちの知る限り、インスタンスセグメンテーションがオーディオ視覚領域に拡張されたのはこれが初めてです。
論文 参考訳(メタデータ) (2023-10-28T13:37:52Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。