論文の概要: Where were my keys? -- Aggregating Spatial-Temporal Instances of Objects
for Efficient Retrieval over Long Periods of Time
- arxiv url: http://arxiv.org/abs/2110.13061v1
- Date: Mon, 25 Oct 2021 15:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:45:56.314051
- Title: Where were my keys? -- Aggregating Spatial-Temporal Instances of Objects
for Efficient Retrieval over Long Periods of Time
- Title(参考訳): 鍵はどこだ?
--長期にわたる効率的な検索のためのオブジェクトの時空間インスタンスの集約
- Authors: Ifrah Idrees, Zahid Hasan, Steven P. Reiss, and Stefanie Tellex
- Abstract要約: 本稿では,検出に基づく3段階階層型アソシエーション手法D3Aを提案する。
D3Aは空間時空間情報を関連づけることなくデータベースに一致したオブジェクトを鼻で保存するシステムよりも47倍高速で33%精度が高いことを示す。
- 参考スコア(独自算出の注目度): 15.583172926806151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots equipped with situational awareness can help humans efficiently find
their lost objects by leveraging spatial and temporal structure. Existing
approaches to video and image retrieval do not take into account the unique
constraints imposed by a moving camera with a partial view of the environment.
We present a Detection-based 3-level hierarchical Association approach, D3A, to
create an efficient query-able spatial-temporal representation of unique object
instances in an environment. D3A performs online incremental and hierarchical
learning to identify keyframes that best represent the unique objects in the
environment. These keyframes are learned based on both spatial and temporal
features and once identified their corresponding spatial-temporal information
is organized in a key-value database. D3A allows for a variety of query
patterns such as querying for objects with/without the following: 1) specific
attributes, 2) spatial relationships with other objects, and 3) time slices.
For a given set of 150 queries, D3A returns a small set of candidate keyframes
(which occupy only 0.17% of the total sensory data) with 81.98\% mean accuracy
in 11.7 ms. This is 47x faster and 33% more accurate than a baseline that
naively stores the object matches (detections) in the database without
associating spatial-temporal information.
- Abstract(参考訳): 状況認識を備えたロボットは、空間的・時間的構造を利用して、失われた物体を効率的に見つけるのに役立つ。
映像と画像検索の既存のアプローチは、環境を部分的に視野に入れた移動カメラによって課されるユニークな制約を考慮に入れていない。
本稿では,環境における一意なオブジェクトインスタンスの効率的なクエリ可能な空間-時間表現を実現するために,検出に基づく3レベル階層結合手法d3aを提案する。
D3Aはオンラインでインクリメンタルで階層的な学習を行い、環境内のユニークなオブジェクトを最もよく表すキーフレームを特定します。
これらのキーフレームは、空間的特徴と時間的特徴の両方に基づいて学習され、対応する空間的時間的情報をキーバリューデータベースに整理する。
D3Aは、以下の方法でオブジェクトを問合せするなど、さまざまなクエリパターンを可能にする。
1)特定の属性
2)他の物体との空間的関係,及び
3) 時間スライス。
与えられた150のクエリに対して、D3Aは、候補キーフレームの小さなセット(総感覚データの0.17%しか占めていない)を81.98\%の平均精度で11.7msで返す。これは47倍高速で、33%精度で、空間的時間的情報を関連付けることなく、データベースにオブジェクトマッチング(検出)をナビゲートするベースラインよりも正確である。
関連論文リスト
- RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor
Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。
本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T17:59:48Z) - Spatio-Temporal-based Context Fusion for Video Anomaly Detection [1.7710335706046505]
ビデオ異常はビデオ内の異常な事象を発見することを目的としており、主な対象は人や車などの対象物である。
既存のほとんどの手法は、異常検出における空間的コンテキストの役割を無視して、時間的コンテキストのみに焦点を当てている。
本稿では,目標時間文脈融合に基づくビデオ異常検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:10Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - Explore Spatio-temporal Aggregation for Insubstantial Object Detection:
Benchmark Dataset and Baseline [16.59161777626215]
Instantial Object Detection (IOD) と呼ばれる, オブジェクトのローカライズを目的とした, 希少な調査作業を行う。
我々は、様々な距離、大きさ、可視性、および異なるスペクトル範囲でキャプチャされたシーンをカバーする600ビデオ(141,017フレーム)からなるIOD-Videoデータセットを構築した。
さらに、異なるバックボーンを配置し、時間軸に沿った整合性を活用するために、時間的アグリゲーション損失(STAloss)を精巧に設計するIODのための時間的アグリゲーションフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-23T02:39:09Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Spatio-temporal Tubelet Feature Aggregation and Object Linking in Videos [2.4923006485141284]
論文は、オブジェクト分類を改善するために、利用可能なビデオの時間情報をどのように活用するかという問題に対処する。
本稿では,FANetと呼ばれる2段階の物体検出器を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。