論文の概要: SSR: A Generic Framework for Text-Aided Map Compression for Localization
- arxiv url: http://arxiv.org/abs/2603.04272v1
- Date: Wed, 04 Mar 2026 16:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.410603
- Title: SSR: A Generic Framework for Text-Aided Map Compression for Localization
- Title(参考訳): SSR: ローカライゼーションのためのテキスト支援マップ圧縮のためのジェネリックフレームワーク
- Authors: Mohammad Omama, Po-han Li, Harsh Goel, Minkyu Choi, Behdad Chalaki, Vaishnav Tadiparthi, Hossein Nourkhiz Mahjoub, Ehsan Moradi Pari, Sandeep P. Chinchali,
- Abstract要約: 高忠実度ローカライゼーションを維持しながら、メモリと帯域幅のフットプリントを削減できるテキスト強調圧縮フレームワークを提案する。
類似性空間レプリケーションは、テキスト記述の「補完的」情報のみをキャプチャする、適応的なイメージを1枚のショットに埋め込むことを学ぶ。
我々は,ビジュアルプレイス認識やオブジェクト中心のモンテカルロローカライゼーションなど,下流の複数のローカライゼーションタスクにおける圧縮フレームワークの有効性を検証する。
- 参考スコア(独自算出の注目度): 13.691397425850097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mapping is crucial in robotics for localization and downstream decision-making. As robots are deployed in ever-broader settings, the maps they rely on continue to increase in size. However, storing these maps indefinitely (cold storage), transferring them across networks, or sending localization queries to cloud-hosted maps imposes prohibitive memory and bandwidth costs. We propose a text-enhanced compression framework that reduces both memory and bandwidth footprints while retaining high-fidelity localization. The key idea is to treat text as an alternative modality: one that can be losslessly compressed with large language models. We propose leveraging lightweight text descriptions combined with very small image feature vectors, which capture "complementary information" as a compact representation for the mapping task. Building on this, our novel technique, Similarity Space Replication (SSR), learns an adaptive image embedding in one shot that captures only the information "complementary" to the text descriptions. We validate our compression framework on multiple downstream localization tasks, including Visual Place Recognition as well as object-centric Monte Carlo localization in both indoor and outdoor settings. SSR achieves 2 times better compression than competing baselines on state-of-the-art datasets, including TokyoVal, Pittsburgh30k, Replica, and KITTI.
- Abstract(参考訳): マッピングは、ローカライゼーションと下流の意思決定のためにロボット工学において不可欠である。
ロボットが常にブロードバンドな環境で展開されるにつれて、ロボットが依存する地図のサイズは増え続けている。
しかし、これらのマップを無期限に保存し(コールドストレージ)、ネットワーク間で転送したり、クラウドにホストされたマップにローカライズクエリを送信すると、メモリと帯域幅の制限が課される。
高忠実度ローカライゼーションを維持しながら、メモリと帯域幅のフットプリントを削減できるテキスト強調圧縮フレームワークを提案する。
鍵となる考え方は、テキストを代替のモダリティとして扱うことである。
マッピングタスクのコンパクトな表現として「補完情報」をキャプチャする、非常に小さな画像特徴ベクトルと組み合わされた軽量なテキスト記述の活用を提案する。
これに基づいて、我々の新しい手法であるSSR(Simisity Space Replication)は、テキスト記述の「補完的」情報のみをキャプチャする適応的なイメージを1枚のショットに埋め込み、学習する。
室内および屋外の両方で視覚的位置認識やオブジェクト中心のモンテカルロ局所化を含む,下流の複数の局所化タスクに対する圧縮フレームワークの検証を行った。
SSRは、TokyoVal, Pittsburgh30k, Replica, KITTIなど、最先端データセットの競合するベースラインよりも2倍の圧縮を実現している。
関連論文リスト
- ImLoc: Revisiting Visual Localization with Image-based Representation [61.282162006394934]
本稿では,各画像に推定深度マップを付加して幾何学的構造を捉えることを提案する。
この表現は構築と維持が容易であるが、挑戦的な条件下では高い精度を達成する。
提案手法は,各種標準ベンチマークにおける新しい最先端の精度を実現し,既存のメモリ効率を同等のマップサイズで向上させる。
論文 参考訳(メタデータ) (2026-01-07T18:51:51Z) - CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP [26.827036116024914]
textscCoPatchはゼロショットRISフレームワークで、テキストと画像の両方の空間表現を強化する。
また,textscCoPatchは, RefCOCO, RefCOCO+, RefCOCOg, PhraseCut (+ 2--7 mIoU) のゼロショットRISにおける空間接地を,追加の訓練を必要とせずに大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-27T04:12:10Z) - A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios [1.2093553114715083]
A-ScoReは、意味のある高セマンティックな2Dディスクリプタを生成するために、ディスクリプタマップレベルの注意を利用するアテンションベースのモデルである。
その結果,本手法はより軽量でフレキシブルでありながら,複数のベンチマークでState-of-the-artメソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-18T07:39:50Z) - R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization [66.87005863868181]
可視性グラフに基づくグローバルエンコーディング学習とデータ拡張戦略を導入する。
ネットワークアーキテクチャとローカル特徴抽出モジュールを再考する。
本手法は,ネットワークアンサンブルや3D監視に頼ることなく,大規模データセットに挑戦する最先端の手法を実現する。
論文 参考訳(メタデータ) (2025-01-02T18:59:08Z) - Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。
これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T14:29:54Z) - Language-Oriented Semantic Latent Representation for Image Transmission [38.62941652189033]
意味コミュニケーション(SC)の新しいパラダイムは、ビットの背後にある意味の提供に焦点を当てている。
データ・テキスト・モデルの最近の進歩は言語指向のSCを促進する。
テキストと圧縮画像の埋め込みの両方を通信する新しいSCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:41:31Z) - NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文 参考訳(メタデータ) (2022-11-21T04:46:22Z) - Learning to Localize Through Compressed Binary Maps [83.03367511221437]
私たちは、地図表現をローカリゼーションタスクに最適なように圧縮することを学びます。
本実験により,汎用コーデック上での2桁のストレージ要求を削減できるタスク固有圧縮を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-12-20T14:47:15Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。