論文の概要: Where were my keys? -- Aggregating Spatial-Temporal Instances of Objects
for Efficient Retrieval over Long Periods of Time
- arxiv url: http://arxiv.org/abs/2110.13061v1
- Date: Mon, 25 Oct 2021 15:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:45:56.314051
- Title: Where were my keys? -- Aggregating Spatial-Temporal Instances of Objects
for Efficient Retrieval over Long Periods of Time
- Title(参考訳): 鍵はどこだ?
--長期にわたる効率的な検索のためのオブジェクトの時空間インスタンスの集約
- Authors: Ifrah Idrees, Zahid Hasan, Steven P. Reiss, and Stefanie Tellex
- Abstract要約: 本稿では,検出に基づく3段階階層型アソシエーション手法D3Aを提案する。
D3Aは空間時空間情報を関連づけることなくデータベースに一致したオブジェクトを鼻で保存するシステムよりも47倍高速で33%精度が高いことを示す。
- 参考スコア(独自算出の注目度): 15.583172926806151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots equipped with situational awareness can help humans efficiently find
their lost objects by leveraging spatial and temporal structure. Existing
approaches to video and image retrieval do not take into account the unique
constraints imposed by a moving camera with a partial view of the environment.
We present a Detection-based 3-level hierarchical Association approach, D3A, to
create an efficient query-able spatial-temporal representation of unique object
instances in an environment. D3A performs online incremental and hierarchical
learning to identify keyframes that best represent the unique objects in the
environment. These keyframes are learned based on both spatial and temporal
features and once identified their corresponding spatial-temporal information
is organized in a key-value database. D3A allows for a variety of query
patterns such as querying for objects with/without the following: 1) specific
attributes, 2) spatial relationships with other objects, and 3) time slices.
For a given set of 150 queries, D3A returns a small set of candidate keyframes
(which occupy only 0.17% of the total sensory data) with 81.98\% mean accuracy
in 11.7 ms. This is 47x faster and 33% more accurate than a baseline that
naively stores the object matches (detections) in the database without
associating spatial-temporal information.
- Abstract(参考訳): 状況認識を備えたロボットは、空間的・時間的構造を利用して、失われた物体を効率的に見つけるのに役立つ。
映像と画像検索の既存のアプローチは、環境を部分的に視野に入れた移動カメラによって課されるユニークな制約を考慮に入れていない。
本稿では,環境における一意なオブジェクトインスタンスの効率的なクエリ可能な空間-時間表現を実現するために,検出に基づく3レベル階層結合手法d3aを提案する。
D3Aはオンラインでインクリメンタルで階層的な学習を行い、環境内のユニークなオブジェクトを最もよく表すキーフレームを特定します。
これらのキーフレームは、空間的特徴と時間的特徴の両方に基づいて学習され、対応する空間的時間的情報をキーバリューデータベースに整理する。
D3Aは、以下の方法でオブジェクトを問合せするなど、さまざまなクエリパターンを可能にする。
1)特定の属性
2)他の物体との空間的関係,及び
3) 時間スライス。
与えられた150のクエリに対して、D3Aは、候補キーフレームの小さなセット(総感覚データの0.17%しか占めていない)を81.98\%の平均精度で11.7msで返す。これは47倍高速で、33%精度で、空間的時間的情報を関連付けることなく、データベースにオブジェクトマッチング(検出)をナビゲートするベースラインよりも正確である。
関連論文リスト
- Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers [62.232809030044116]
会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection [59.03596380773798]
我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor
Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。
本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T17:59:48Z) - Spatio-Temporal-based Context Fusion for Video Anomaly Detection [1.7710335706046505]
ビデオ異常はビデオ内の異常な事象を発見することを目的としており、主な対象は人や車などの対象物である。
既存のほとんどの手法は、異常検出における空間的コンテキストの役割を無視して、時間的コンテキストのみに焦点を当てている。
本稿では,目標時間文脈融合に基づくビデオ異常検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:10Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Spatio-temporal Tubelet Feature Aggregation and Object Linking in Videos [2.4923006485141284]
論文は、オブジェクト分類を改善するために、利用可能なビデオの時間情報をどのように活用するかという問題に対処する。
本稿では,FANetと呼ばれる2段階の物体検出器を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。