論文の概要: ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos
- arxiv url: http://arxiv.org/abs/2107.11629v1
- Date: Sat, 24 Jul 2021 15:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 06:11:11.318244
- Title: ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos
- Title(参考訳): ASOD60K:パノラマビデオにおけるオーディオ誘発唾液物検出
- Authors: Yi Zhang, Fang-Yi Chao, Ge-Peng Ji, Deng-Ping Fan, Lu Zhang, Ling Shao
- Abstract要約: 本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
- 参考スコア(独自算出の注目度): 79.05486554647918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploring to what humans pay attention in dynamic panoramic scenes is useful
for many fundamental applications, including augmented reality (AR) in retail,
AR-powered recruitment, and visual language navigation. With this goal in mind,
we propose PV-SOD, a new task that aims to segment salient objects from
panoramic videos. In contrast to existing fixation-level or object-level
saliency detection tasks, we focus on multi-modal salient object detection
(SOD), which mimics human attention mechanism by segmenting salient objects
with the guidance of audio-visual cues. To support this task, we collect the
first large-scale dataset, named ASOD60K, which contains 4K-resolution video
frames annotated with a six-level hierarchy, thus distinguishing itself with
richness, diversity and quality. Specifically, each sequence is marked with
both its super-/sub-class, with objects of each sub-class being further
annotated with human eye fixations, bounding boxes, object-/instance-level
masks, and associated attributes (e.g., geometrical distortion). These
coarse-to-fine annotations enable detailed analysis for PV-SOD modeling, e.g.,
determining the major challenges for existing SOD models, and predicting
scanpaths to study the long-term eye fixation behaviors of humans. We
systematically benchmark 11 representative approaches on ASOD60K and derive
several interesting findings. We hope this study could serve as a good starting
point for advancing SOD research towards panoramic videos.
- Abstract(参考訳): 動的パノラマシーンで人間が注意を払うものを探すことは、小売業における拡張現実(AR)、ARによる採用、ビジュアル言語ナビゲーションなど、多くの基本的なアプリケーションにとって有用である。
この目標を念頭に置いて,パノラマビデオから有能なオブジェクトを分割する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルのサリエンシ検出タスクとは対照的に,オーディオ・ビジュアル・キューの指導によるサリエント・オブジェクトの分割による人間の注意機構を模倣するマルチモーダル・サリエント・オブジェクト検出(SOD)に注目した。
このタスクをサポートするために、我々はasod60kと呼ばれる最初の大規模データセットを収集し、これは6レベル階層にアノテートされた4k解像度ビデオフレームを含んでいる。
具体的には、それぞれのシーケンスはスーパークラスとサブクラスの両方でマークされ、各サブクラスのオブジェクトは人間の眼固定、バウンディングボックス、オブジェクト/インスタンスレベルマスク、関連する属性(例えば幾何学的歪み)で注釈付けされる。
これらの粗いアノテーションは、PV-SODモデリングの詳細な分析、例えば既存のSODモデルの主な課題の決定、および人間の長期眼球固定行動を研究するためのスキャンパスの予測を可能にする。
我々は、ASOD60Kに11の代表的なアプローチを体系的にベンチマークし、いくつかの興味深い結果を得た。
この研究がSOD研究をパノラマビデオに進める出発点になることを期待している。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。