論文の概要: Robust Visual Localization via Semantic-Guided Multi-Scale Transformer
- arxiv url: http://arxiv.org/abs/2506.08526v1
- Date: Tue, 10 Jun 2025 07:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.773322
- Title: Robust Visual Localization via Semantic-Guided Multi-Scale Transformer
- Title(参考訳): セマンティックガイド型マルチスケール変圧器によるロバスト視覚像定位
- Authors: Zhongtao Tian, Wenhao Huang, Zhidong Chen, Xiao Wei Sun,
- Abstract要約: マルチスケール特徴学習とセマンティックシーン理解を組み合わせたフレームワークを提案する。
本手法では, 空間的変化に適応しつつ, 空間的精度を保ちながら, 幾何学的詳細と文脈的手がかりを融合する階層変換器を用いる。
- 参考スコア(独自算出の注目度): 3.3106947066548167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization remains challenging in dynamic environments where fluctuating lighting, adverse weather, and moving objects disrupt appearance cues. Despite advances in feature representation, current absolute pose regression methods struggle to maintain consistency under varying conditions. To address this challenge, we propose a framework that synergistically combines multi-scale feature learning with semantic scene understanding. Our approach employs a hierarchical Transformer with cross-scale attention to fuse geometric details and contextual cues, preserving spatial precision while adapting to environmental changes. We improve the performance of this architecture with semantic supervision via neural scene representation during training, guiding the network to learn view-invariant features that encode persistent structural information while suppressing complex environmental interference. Experiments on TartanAir demonstrate that our approach outperforms existing pose regression methods in challenging scenarios with dynamic objects, illumination changes, and occlusions. Our findings show that integrating multi-scale processing with semantic guidance offers a promising strategy for robust visual localization in real-world dynamic environments.
- Abstract(参考訳): ゆらぎのある照明、悪天候、動く物体が外見を妨害する動的環境において、視覚的位置決めは依然として困難である。
特徴表現の進歩にもかかわらず、現在の絶対ポーズ回帰法は、様々な条件下で一貫性を維持するのに苦労している。
この課題に対処するために,マルチスケール特徴学習とセマンティックシーン理解を相乗的に組み合わせたフレームワークを提案する。
本手法では, 空間的変化に適応しつつ, 空間的精度を保ちながら, 幾何学的詳細と文脈的手がかりを融合する階層変換器を用いる。
複雑な環境干渉を抑えつつ、永続的な構造情報をエンコードするビュー不変の特徴をネットワークに学習させることにより、トレーニング中のニューラルシーン表現によるセマンティック監視により、このアーキテクチャの性能を向上させる。
TartanAirの実験では、我々のアプローチは、動的オブジェクト、照明変更、オクルージョンを含む挑戦的なシナリオにおいて、既存のポーズ回帰手法よりも優れていることを示した。
本研究は,マルチスケール処理とセマンティックガイダンスを統合することで,実世界の動的環境におけるロバストな視覚的ローカライゼーションを実現する上で有望な戦略を提供することを示す。
関連論文リスト
- Situationally-Aware Dynamics Learning [57.698553219660376]
隠れ状態表現のオンライン学習のための新しいフレームワークを提案する。
提案手法は、非観測パラメータが遷移力学と報酬構造の両方に与える影響を明示的にモデル化する。
シミュレーションと実世界の両方の実験は、データ効率、ポリシー性能、安全で適応的なナビゲーション戦略の出現を著しく改善した。
論文 参考訳(メタデータ) (2025-05-26T06:40:11Z) - Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。