論文の概要: VOCAL: Visual Odometry via ContrAstive Learning
- arxiv url: http://arxiv.org/abs/2507.00243v1
- Date: Mon, 30 Jun 2025 20:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.753835
- Title: VOCAL: Visual Odometry via ContrAstive Learning
- Title(参考訳): VOCAL:コントラッシブラーニングによる視覚オドメトリー
- Authors: Chi-Yao Huang, Zeel Bhatt, Yezhou Yang,
- Abstract要約: VOCAL (Visual Odometry via ContrAstive Learning) は,ビジュアルオドメトリーをラベルランキングの課題として再定義する新しいフレームワークである。
ベイズ推論と表現学習フレームワークを統合することで、VOCALは視覚的特徴をミラーカメラ状態に整理する。
この戦略的アライメントは、学習した機能の解釈可能性を高め、マルチモーダルデータソースとの互換性を保証する。
- 参考スコア(独自算出の注目度): 25.50526976366299
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Breakthroughs in visual odometry (VO) have fundamentally reshaped the landscape of robotics, enabling ultra-precise camera state estimation that is crucial for modern autonomous systems. Despite these advances, many learning-based VO techniques rely on rigid geometric assumptions, which often fall short in interpretability and lack a solid theoretical basis within fully data-driven frameworks. To overcome these limitations, we introduce VOCAL (Visual Odometry via ContrAstive Learning), a novel framework that reimagines VO as a label ranking challenge. By integrating Bayesian inference with a representation learning framework, VOCAL organizes visual features to mirror camera states. The ranking mechanism compels similar camera states to converge into consistent and spatially coherent representations within the latent space. This strategic alignment not only bolsters the interpretability of the learned features but also ensures compatibility with multimodal data sources. Extensive evaluations on the KITTI dataset highlight VOCAL's enhanced interpretability and flexibility, pushing VO toward more general and explainable spatial intelligence.
- Abstract(参考訳): ビジュアルオドメトリー(VO)のブレークスルーは、ロボット工学のランドスケープを根本的に変え、現代の自律システムにとって重要な超精密カメラ状態推定を可能にした。
これらの進歩にもかかわらず、多くの学習ベースのVO技術は、しばしば解釈可能性に欠け、完全にデータ駆動のフレームワークの中でしっかりとした理論的基盤が欠如している、厳密な幾何学的仮定に依存している。
これらの制限を克服するために,VOをラベルランキングチャレンジとして再定義する新しいフレームワークであるVOCAL(Visual Odometry via ContrAstive Learning)を導入する。
ベイズ推論と表現学習フレームワークを統合することで、VOCALは視覚的特徴をミラーカメラ状態に整理する。
ランク付け機構は、類似のカメラ状態を補償し、潜在空間内の一貫した空間的コヒーレント表現に収束させる。
この戦略的アライメントは、学習した機能の解釈可能性を高めるだけでなく、マルチモーダルデータソースとの互換性を確保する。
KITTIデータセットの大規模な評価は、VOCALの強化された解釈可能性と柔軟性を強調し、VOをより汎用的で説明可能な空間知性へと押し上げる。
関連論文リスト
- From Data to Modeling: Fully Open-vocabulary Scene Graph Generation [29.42202665594218]
OvSGTRは、完全にオープンなシーングラフ生成のためのトランスフォーマーベースのフレームワークである。
我々のアプローチは、事前に定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
論文 参考訳(メタデータ) (2025-05-26T15:11:23Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement [7.789114492151524]
異種空間特徴を統合し,二次元アテンション機構を組み込んだ新しい音声強調フレームワークHFSDAを提案する。
提案モデルは,高レベルな意味情報と詳細なスペクトルデータの両方を抽出し,より詳細な分析と音声信号の改良を可能にする。
我々は、時間次元だけでなくスペクトル領域にわたって特徴抽出能力を高めることで、コンフォーマーモデルを洗練する。
論文 参考訳(メタデータ) (2024-08-13T14:04:24Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。