論文の概要: Riemannian and Symplectic Geometry for Hierarchical Text-Driven Place Recognition
- arxiv url: http://arxiv.org/abs/2604.01598v1
- Date: Thu, 02 Apr 2026 04:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.262601
- Title: Riemannian and Symplectic Geometry for Hierarchical Text-Driven Place Recognition
- Title(参考訳): 階層型テキスト駆動型位置認識のためのリーマン幾何学とシンプレクティック幾何学
- Authors: Tianyi Shang, Zhenyu Li,
- Abstract要約: SympLocは、粗い段階における多レベルアライメントを備えた、新しい粗大な局所化フレームワークである。
既存の最先端のアプローチと比較して、Top-1リコール@10mでは19%改善されている。
- 参考スコア(独自算出の注目度): 6.392844932864485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-point-cloud localization enables robots to understand spatial positions through natural language descriptions, which is crucial for human-robot collaboration in applications such as autonomous driving and last-mile delivery. However, existing methods employ pooled global descriptors for similarity retrieval, which suffer from severe information loss and fail to capture discriminative scene structures. To address these issues, we propose SympLoc, a novel coarse-to-fine localization framework with multi-level alignment in the coarse stage. Different from previous methods that rely solely on global descriptors, our coarse stage consists of three complementary alignment levels: 1) Instance-level alignment establishes direct correspondence between individual object instances in point clouds and textual hints through Riemannian self-attention in hyperbolic space; 2) Relation-level alignment explicitly models pairwise spatial relationships between objects using the Information-Symplectic Relation Encoder (ISRE), which reformulates relation features through Fisher-Rao metric and Hamiltonian dynamics for uncertainty-aware geometrically consistent propagation; 3) Global-level alignment synthesizes discriminative global descriptors via the Spectral Manifold Transform (SMT) that extracts structural invariants through graph spectral analysis. This hierarchical alignment strategy progressively captures fine-grained to coarse-grained scene semantics, enabling robust cross-modal retrieval. Extensive experiments on the KITTI360Pose dataset demonstrate that SympLoc achieves a 19% improvement in Top-1 recall@10m compared to existing state-of-the-art approaches.
- Abstract(参考訳): テキスト・ツー・ポイント・クラウドのローカライゼーションにより、ロボットは自然言語の記述を通じて空間的な位置を理解することができる。
しかし,既存の手法では類似性検索にプールド・グローバル・ディスクリプタを採用しており,情報損失が激しく,識別的なシーン構造を捉えられなかった。
このような問題に対処するために,我々は,多レベルアライメントを持つ新しい粗大な局所化フレームワークであるSympLocを提案する。
グローバルな記述子のみに依存する従来の方法とは異なり、我々の粗い段階は3つの相補的なアライメントレベルから構成される。
1) インスタンスレベルのアライメントは、点雲内の個々のオブジェクトインスタンスと双曲空間におけるリーマン自己注意によるテキストヒントとの間の直接対応を確立する。
2)関係レベルのアライメントは、不確実性を考慮した幾何的一貫した伝播のためのフィッシャー・ラオ計量とハミルトン力学を通して関係性を再構成する情報・シンプレクティック・リレーション・エンコーダ(ISRE)を用いて、オブジェクト間の相互空間関係を明示的にモデル化する。
3)グローバルレベルのアライメントは,SMT(Spectral Manifold Transform)を用いて識別的グローバル記述子を合成し,グラフスペクトル分析により構造不変量を抽出する。
この階層的なアライメント戦略は、細粒度から粗粒度のシーンセマンティクスを段階的にキャプチャし、堅牢なクロスモーダル検索を可能にする。
KITTI360Poseデータセットに関する大規模な実験は、SympLocがTop-1リコール@10mで19%改善したことを示している。
関連論文リスト
- dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3 [36.6036728217708]
Open-Vocabulary Semantics (OVSS)は、テキスト定義カテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に見えないクラスに信頼性の高い一般化を要求する。
我々は dinov3.seg を導入し、 dinov3.txt を OVSS 専用のフレームワークに拡張した。
まず、このバックボーンに合わせたタスク固有のアーキテクチャを設計し、従来のオープン語彙セグメンテーション作業から確立した設計原則を体系的に適用する。
第2に、VTベースのエンコーダのグローバルトークンとローカルパッチレベルのビジュアル特徴の両方に整合したテキスト埋め込みを共同で活用する。
論文 参考訳(メタデータ) (2026-03-19T23:57:28Z) - Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - TRACE for Tracking the Emergence of Semantic Representations in Transformers [10.777646083061395]
本稿では,トランスフォーマーに基づくLMにおける位相遷移を検出するために,幾何学的,情報的,言語的信号を組み合わせた診断フレームワークTRACEを紹介する。
実験により、位相遷移は曲率崩壊と寸法安定化の明確な交点と一致し、これらの幾何学的シフトは、新たな構文的および意味論的精度と一致することが明らかになった。
この研究は、モデル解釈可能性、訓練効率、構成一般化に関する洞察を提供することで、言語的抽象がLMにどのように現れるかの理解を深める。
論文 参考訳(メタデータ) (2025-05-23T15:03:51Z) - HierRelTriple: Guiding Indoor Layout Generation with Hierarchical Relationship Triplet Losses [52.70183252341687]
本稿では,空間的関係学習に着目した階層型三重項に基づく屋内関係学習手法HierRelTripleを提案する。
階層型リレーショナル三重項モデリングフレームワークであるHierRelTripleを導入する。
非条件レイアウト合成、フロアプラン条件付きレイアウト生成、シーン再構成の実験により、HierRelは空間関係のメトリクスを15%以上改善することを示した。
論文 参考訳(メタデータ) (2025-03-26T07:31:52Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。