論文の概要: On Extending Semantic Abstraction for Efficient Search of Hidden Objects
- arxiv url: http://arxiv.org/abs/2512.22220v1
- Date: Mon, 22 Dec 2025 20:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.901947
- Title: On Extending Semantic Abstraction for Efficient Search of Hidden Objects
- Title(参考訳): 隠れた物体の効率的な探索のための意味的抽象化の拡張について
- Authors: Tasha Pais, Nikhilesh Belulkar,
- Abstract要約: このフレームワークは、隠されたオブジェクトの排他的ドメインに対する3Dローカライゼーションと完了の学習に使用します。
本モデルでは,最初の試みにおいて,隠れた物体の完全な3次元位置を,無作為なランダム探索よりもはるかに高速に同定することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Abstraction's key observation is that 2D VLMs' relevancy activations roughly correspond to their confidence of whether and where an object is in the scene. Thus, relevancy maps are treated as "abstract object" representations. We use this framework for learning 3D localization and completion for the exclusive domain of hidden objects, defined as objects that cannot be directly identified by a VLM because they are at least partially occluded. This process of localizing hidden objects is a form of unstructured search that can be performed more efficiently using historical data of where an object is frequently placed. Our model can accurately identify the complete 3D location of a hidden object on the first try significantly faster than a naive random search. These extensions to semantic abstraction hope to provide household robots with the skills necessary to save time and effort when looking for lost objects.
- Abstract(参考訳): セマンティック・抽象化(Semantic Abstraction)のキーとなる観察は、2D VLMsの関連性アクティベーションは、物体がシーン内に存在するかどうかの信頼とほぼ一致しているということである。
したがって、関係写像は「抽象対象」表現として扱われる。
このフレームワークは,少なくとも部分的には隠蔽されているため,VLMによって直接識別できないオブジェクトとして定義された隠蔽対象の排他的領域に対する3Dローカライゼーションと補完を学習するために使用される。
隠されたオブジェクトをローカライズするこのプロセスは、オブジェクトを頻繁に配置する履歴データを用いて、より効率的に実行できる非構造化検索の一形態である。
本モデルでは,最初の試みにおいて,隠れた物体の完全な3次元位置を,無作為なランダム探索よりもはるかに高速に同定することができる。
これらのセマンティック抽象化への拡張は、失われたオブジェクトを探すのに時間と労力を節約するために必要なスキルを家庭用ロボットに提供することを望んでいる。
関連論文リスト
- GrabS: Generative Embodied Agent for 3D Object Segmentation without Scene Supervision [7.511342491529451]
複雑な点雲における3次元物体のセグメンテーションの難しさについて,人間の3次元シーンのラベルを監督のために必要とせずに検討した。
事前訓練された2D特徴の類似性や3Dポイントをオブジェクトとしてグループ化する動きなどの外部信号に頼ることで、既存の教師なし手法は車のような単純な物体を識別することに限定される。
論文 参考訳(メタデータ) (2025-04-16T04:13:53Z) - Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Source-free Depth for Object Pop-out [113.24407776545652]
現代の学習に基づく手法は、野生での推論による有望な深度マップを提供する。
本研究では,オブジェクトの3次元前の「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。
8つのデータセットに対する我々の実験は、性能と一般化性の両方の観点から、我々の方法の利点を一貫して示している。
論文 参考訳(メタデータ) (2022-12-10T21:57:11Z) - 4D Unsupervised Object Discovery [53.561750858325915]
本研究では,3次元点雲と2次元RGB画像の時間的情報を用いた4次元データからオブジェクトを共同で検出する4次元非教師対象探索を提案する。
本稿では,2次元ローカライゼーションネットワークで協調的に最適化された3次元点雲上にClusterNetを提案することで,この課題に対する最初の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-10T16:05:53Z) - Object Priors for Classifying and Localizing Unseen Actions [45.91275361696107]
本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。
上述の3つのセマンティックオブジェクトプリエントを導入し、単語の埋め込みを通じてセマンティックマッチングを拡張する。
ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。
論文 参考訳(メタデータ) (2021-04-10T08:56:58Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Learning Object Permanence from Video [46.34427538905761]
本稿では,データからオブジェクトパーマンスを学習するためのセットアップを紹介する。
本稿では,この学習問題を,対象が可視である4つの構成要素,(2)隠蔽,(3)他の対象が包含,(4)包含対象が担持する4つの要素に分解すべき理由を説明する。
そして、これらの4つのシナリオの下でオブジェクトの位置を予測することを学習する統合されたディープアーキテクチャを提示します。
論文 参考訳(メタデータ) (2020-03-23T18:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。