論文の概要: Objects do not disappear: Video object detection by single-frame object
location anticipation
- arxiv url: http://arxiv.org/abs/2308.04770v1
- Date: Wed, 9 Aug 2023 07:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:42:38.231031
- Title: Objects do not disappear: Video object detection by single-frame object
location anticipation
- Title(参考訳): オブジェクトは消滅しない:単一フレームオブジェクト位置予測によるビデオオブジェクト検出
- Authors: Xin Liu, Fatemeh Karimi Nejadasl, Jan C. van Gemert, Olaf Booij,
Silvia L. Pintea
- Abstract要約: 我々は静的な位置から物体の位置を予測することにより、動画の連続的な滑らかな動きを利用する。
隣接するビデオフレームは、しばしば冗長であるため、単一の静的かつ予測可能なオブジェクト位置の機能を、その後のフレームでのみ計算する。
計算効率,アノテーション効率,平均平均精度を4つのデータセットで比較した。
- 参考スコア(独自算出の注目度): 24.045412765525796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objects in videos are typically characterized by continuous smooth motion. We
exploit continuous smooth motion in three ways. 1) Improved accuracy by using
object motion as an additional source of supervision, which we obtain by
anticipating object locations from a static keyframe. 2) Improved efficiency by
only doing the expensive feature computations on a small subset of all frames.
Because neighboring video frames are often redundant, we only compute features
for a single static keyframe and predict object locations in subsequent frames.
3) Reduced annotation cost, where we only annotate the keyframe and use smooth
pseudo-motion between keyframes. We demonstrate computational efficiency,
annotation efficiency, and improved mean average precision compared to the
state-of-the-art on four datasets: ImageNet VID, EPIC KITCHENS-55,
YouTube-BoundingBoxes, and Waymo Open dataset. Our source code is available at
https://github.com/L-KID/Videoobject-detection-by-location-anticipation.
- Abstract(参考訳): ビデオのオブジェクトは通常、連続的な滑らかな動きによって特徴づけられる。
連続的な滑らかな動きを3つの方法で活用する。
1)静的なキーフレームからオブジェクトの位置を予測し,オブジェクトの動きを監視源として利用することで精度を向上させる。
2)全フレームの小さなサブセットで高価な特徴計算のみを行うことで効率が向上した。
隣接するビデオフレームはしばしば冗長であるため、単一の静的キーフレームの機能のみを計算し、その後のフレーム内のオブジェクト位置を予測する。
3) キーフレームをアノテートし、キーフレーム間のスムーズな擬似動作を使用する、アノテーションコストの削減。
我々は、ImageNet VID、EPIC KITCHENS-55、YouTube-BoundingBoxes、Waymo Openデータセットの4つのデータセットに対して、計算効率、アノテーション効率、平均平均精度を改善した。
ソースコードはhttps://github.com/l-kid/videoobject-detection-by-location-anticipationで入手できます。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - BCOT: A Markerless High-Precision 3D Object Tracking Benchmark [15.8625561193144]
実動物体の正確な3次元ポーズを推定するためのマルチビュー手法を提案し, 両眼データを用いてモノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築した。
オブジェクト中心モデルに基づいて、すべてのビューにおいて形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。
新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。
論文 参考訳(メタデータ) (2022-03-25T03:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。