論文の概要: Explore Spatio-temporal Aggregation for Insubstantial Object Detection:
Benchmark Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2206.11459v2
- Date: Fri, 4 Aug 2023 08:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:51:54.897538
- Title: Explore Spatio-temporal Aggregation for Insubstantial Object Detection:
Benchmark Dataset and Baseline
- Title(参考訳): insubstantial object detectionのための時空間アグリゲーションの検討:ベンチマークデータセットとベースライン
- Authors: Kailai Zhou, Yibo Wang, Tao Lv, Yunqian Li, Linsen Chen, Qiu Shen, Xun
Cao
- Abstract要約: Instantial Object Detection (IOD) と呼ばれる, オブジェクトのローカライズを目的とした, 希少な調査作業を行う。
我々は、様々な距離、大きさ、可視性、および異なるスペクトル範囲でキャプチャされたシーンをカバーする600ビデオ(141,017フレーム)からなるIOD-Videoデータセットを構築した。
さらに、異なるバックボーンを配置し、時間軸に沿った整合性を活用するために、時間的アグリゲーション損失(STAloss)を精巧に設計するIODのための時間的アグリゲーションフレームワークを開発する。
- 参考スコア(独自算出の注目度): 16.59161777626215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We endeavor on a rarely explored task named Insubstantial Object Detection
(IOD), which aims to localize the object with following characteristics: (1)
amorphous shape with indistinct boundary; (2) similarity to surroundings; (3)
absence in color. Accordingly, it is far more challenging to distinguish
insubstantial objects in a single static frame and the collaborative
representation of spatial and temporal information is crucial. Thus, we
construct an IOD-Video dataset comprised of 600 videos (141,017 frames)
covering various distances, sizes, visibility, and scenes captured by different
spectral ranges. In addition, we develop a spatio-temporal aggregation
framework for IOD, in which different backbones are deployed and a
spatio-temporal aggregation loss (STAloss) is elaborately designed to leverage
the consistency along the time axis. Experiments conducted on IOD-Video dataset
demonstrate that spatio-temporal aggregation can significantly improve the
performance of IOD. We hope our work will attract further researches into this
valuable yet challenging task. The code will be available at:
\url{https://github.com/CalayZhou/IOD-Video}.
- Abstract(参考訳): 我々は,(1)不連続な境界を持つアモルファス形状,(2)周囲との類似性,(3)色彩の欠如という特徴をもって物体を局在化することを目的とした,不連続物体検出(insubstantial object detection,iod)という稀な課題に取り組んでいる。
したがって、単一の静的フレームで非実体オブジェクトを区別することがより困難であり、空間的および時間的情報の協調的表現が不可欠である。
そこで我々は,様々な距離,サイズ,可視性,および異なるスペクトル範囲で捉えたシーンを含む600ビデオ(141,017フレーム)からなるIOD-Videoデータセットを構築した。
さらに,様々なバックボーンをデプロイし,時間軸に沿った一貫性を活用するために時空間集約損失(staloss)を精巧に設計したiodのための時空間集約フレームワークを開発した。
IOD-Videoデータセットを用いて行った実験により、時空間アグリゲーションはIODの性能を大幅に向上することが示された。
私たちの研究が、この価値ある、そして挑戦的なタスクにさらなる研究を惹きつけることを願っています。
コードは次の通り。 \url{https://github.com/CalayZhou/IOD-Video}。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - Spatio-Temporal-based Context Fusion for Video Anomaly Detection [1.7710335706046505]
ビデオ異常はビデオ内の異常な事象を発見することを目的としており、主な対象は人や車などの対象物である。
既存のほとんどの手法は、異常検出における空間的コンテキストの役割を無視して、時間的コンテキストのみに焦点を当てている。
本稿では,目標時間文脈融合に基づくビデオ異常検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:10Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。