論文の概要: WorldComp2D: Spatio-semantic Representations of Object Identity and Location from Local Views
- arxiv url: http://arxiv.org/abs/2605.11743v1
- Date: Tue, 12 May 2026 08:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.704723
- Title: WorldComp2D: Spatio-semantic Representations of Object Identity and Location from Local Views
- Title(参考訳): WorldComp2D: ローカルビューからのオブジェクトの同一性と位置の時空間表現
- Authors: SeongMin Jin, Doo Seok Jeong,
- Abstract要約: WorldComp2Dは、オブジェクトの同一性や空間的近接性に応じて潜在空間の幾何学を構造化する新しい表現フレームワークである。
我々は,SoTA軽量モデルと比較して,WorldComp2D は CPU 上でのリアルタイム性能を維持しつつ,FLOP のパラメータ数を最大4.0X と 2.2X に削減することを示した。
- 参考スコア(独自算出の注目度): 0.8594140167290095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning latent representations that capture both semantic and spatial information is central to efficient spatio-semantic reasoning. However, many existing approaches rely on implicit latent structures combined with dense feature maps or task-specific heads, limiting computational efficiency and flexibility. We propose WorldComp2D, a novel lightweight representation learning framework that explicitly structures latent space geometry according to object identity and spatial proximity using multiscale local receptive fields. This framework consists of (i) a proximity-dependent encoder that maps a given observation into a spatio-semantic latent space and (ii) a localizer that infers the coordinates of objects in the input from the resulting spatio-semantic representation. Using facial landmark localization as a proof-of-concept, we show that, compared to SoTA lightweight models, WorldComp2D reduces the numbers of parameters and FLOPs by up to 4.0X and 2.2X, respectively, while maintaining real-time performance on CPU. These results demonstrate that explicitly structured latent spaces provide an efficient and general foundation for spatio-semantic reasoning. This framework is open-sourced at https://github.com/JinSeongmin/WorldComp2D.
- Abstract(参考訳): 意味情報と空間情報の両方をキャプチャする潜在表現を学習することは、効率的な時空間推論の中心となる。
しかし、既存の多くのアプローチは暗黙の潜在構造と密集した特徴写像やタスク固有ヘッドを組み合わせ、計算効率と柔軟性を制限している。
マルチスケールな局所受容場を用いて,オブジェクトの同一性や空間的近接性に応じて潜在空間形状を明示的に構造化する,新しい軽量表現学習フレームワーク WorldComp2D を提案する。
このフレームワークは、
一 所定の観測を時空間の時空間及び時空間にマッピングする近接依存性エンコーダ
(ii)結果の時空間表現から入力中のオブジェクトの座標を推測するローカライザ。
顔のランドマークのローカライゼーションを概念実証として、SoTAの軽量モデルと比較して、WorldComp2DはCPU上でのリアルタイムパフォーマンスを維持しながら、パラメータとFLOPの数を最大4.0Xと2.2Xに削減する。
これらの結果は、明示的に構造化された潜在空間が、時空間的推論の効率的かつ一般的な基礎を提供することを示した。
このフレームワークはhttps://github.com/JinSeongmin/WorldComp2Dでオープンソース化されている。
関連論文リスト
- VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models [33.748083718525756]
テキスト・ツー・ポイント・クラウド(T2P)のローカライゼーションは、自然言語記述から3次元ポイント・クラウドマップ内の正確な空間位置を推定することを目的としている。
大規模視覚言語モデルの空間的推論能力を活用するフレームワークであるVLM-Locを提案する。
CityLocの実験では、VLM-Locは最先端の手法に比べて精度と堅牢性に優れていた。
論文 参考訳(メタデータ) (2026-03-10T15:48:25Z) - Robust Scene Coordinate Regression via Geometrically-Consistent Global Descriptors [52.57327385675752]
幾何学的構造と視覚的類似性の両方に整合したグローバルな記述子を学習するアグリゲータモジュールを提案する。
これにより、信頼できないオーバーラップスコアによる誤関連が修正される。
挑戦的なベンチマークの実験では、大規模環境ではかなりのローカライゼーションが得られた。
論文 参考訳(メタデータ) (2025-12-19T04:24:03Z) - MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation [15.116320098263149]
MapBERTは、目に見えない空間の分布をモデル化するために設計された新しいフレームワークである。
本研究では,MapBERTが最先端のセマンティックマップ生成を実現することを示す。
Gibsonベンチマークの実験では、MapBERTが最先端のセマンティックマップ生成を実現している。
論文 参考訳(メタデータ) (2025-06-09T01:55:55Z) - Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [52.57327385675752]
直接2D-3Dマッチングではメモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。
重み付き平均演算子を用いて局所的および大域的記述子を融合することにより、この曖昧さに対処する。
メモリを43%削減し、1.6倍高速に動作しながら、階層的な手法に近いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-21T23:42:16Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Lightweight Object-level Topological Semantic Mapping and Long-term
Global Localization based on Graph Matching [19.706907816202946]
本稿では,高精度でロバストなオブジェクトレベルのマッピングとローカライズ手法を提案する。
我々は、環境のランドマークをモデル化するために、意味情報と幾何学情報の両方を持つオブジェクトレベルの特徴を使用する。
提案したマップに基づいて,新たな局所的シーングラフ記述子を構築することにより,ロバストなローカライゼーションを実現する。
論文 参考訳(メタデータ) (2022-01-16T05:47:07Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。