論文の概要: Panoramic Video Salient Object Detection with Ambisonic Audio Guidance
- arxiv url: http://arxiv.org/abs/2211.14419v1
- Date: Sat, 26 Nov 2022 00:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:06:16.753028
- Title: Panoramic Video Salient Object Detection with Ambisonic Audio Guidance
- Title(参考訳): ambisonic audio guidanceを用いたパノラマビデオサリエント物体検出
- Authors: Xiang Li, Haoyuan Cao, Shijie Zhao, Junlin Li, Li Zhang, Bhiksha Raj
- Abstract要約: 本稿では,2つの擬似主題音声-視覚コンテキスト融合ブロックを備えたマルチモーダル融合モジュールを提案する。
球面位置符号化を備えたブロックにより、3次元コンテキストでの融合により、画素と音源の空間対応を捉えることができる。
提案手法は,ASOD60Kデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 24.341735475632884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video salient object detection (VSOD), as a fundamental computer vision
problem, has been extensively discussed in the last decade. However, all
existing works focus on addressing the VSOD problem in 2D scenarios. With the
rapid development of VR devices, panoramic videos have been a promising
alternative to 2D videos to provide immersive feelings of the real world. In
this paper, we aim to tackle the video salient object detection problem for
panoramic videos, with their corresponding ambisonic audios. A multimodal
fusion module equipped with two pseudo-siamese audio-visual context fusion
(ACF) blocks is proposed to effectively conduct audio-visual interaction. The
ACF block equipped with spherical positional encoding enables the fusion in the
3D context to capture the spatial correspondence between pixels and sound
sources from the equirectangular frames and ambisonic audios. Experimental
results verify the effectiveness of our proposed components and demonstrate
that our method achieves state-of-the-art performance on the ASOD60K dataset.
- Abstract(参考訳): video salient object detection (vsod)はコンピュータビジョンの基本的な問題であり、過去10年間に広く議論されてきた。
しかし、既存の作業はすべて、2DシナリオにおけるVSOD問題への対処に焦点を当てている。
VR機器の急速な開発により、パノラマビデオは現実世界の没入感を提供する2Dビデオの代替として有望な存在となった。
本稿では,パノラマビデオにおける映像の有意な物体検出問題に,対応するアンビソニックオーディオを用いて取り組むことを目的とする。
2つの疑似シアム音声-視覚コンテキスト融合(acf)ブロックを備えたマルチモーダル融合モジュールを提案する。
球面位置符号化を備えたACFブロックは、3次元コンテキストでの融合により、等方形フレームとアンビソニックオーディオから画素と音源の空間的対応を捉えることができる。
実験により提案手法の有効性を検証し,ASOD60Kデータセット上での最先端性能を実証した。
関連論文リスト
- AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。
大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文 参考訳(メタデータ) (2024-12-22T05:04:17Z) - 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [136.5813547244979]
高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。
我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。
次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:36:54Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation [26.85397648493918]
マルチオーダーバイラテラルレラティオンの協調のための頭字語であるCOMBOを提案する。
AVS内における3種類の左右の絡み合い(画素の絡み合い、モダリティの絡み合い、時間的絡み合い)を初めて検討した。
AVSBench-objectとAVSBench-semanticデータセットの実験とアブレーション研究は、COMBOが従来の最先端の手法を上回ることを示した。
論文 参考訳(メタデータ) (2023-12-11T15:51:38Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。