論文の概要: From General Vision to Reliable Traversability Estimation: Adapting Vision Foundation Models for Unstructured Outdoor Environments
- arxiv url: http://arxiv.org/abs/2605.29565v1
- Date: Thu, 28 May 2026 08:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.057308
- Title: From General Vision to Reliable Traversability Estimation: Adapting Vision Foundation Models for Unstructured Outdoor Environments
- Title(参考訳): 一般ビジョンから信頼性トラバーサビリティ推定へ:非構造屋外環境に対するビジョン基礎モデルの適用
- Authors: Ji-Hoon Hwang, Jisung Bae, Dong-Wook Kim, Yeonkyu Lee, Seung-Woo Seo,
- Abstract要約: 信頼性の高いトラバーサビリティ推定に視覚に基づくアプローチを適用するフレームワークであるViTAを提案する。
ViTAは、VFMのクロスドメインの一般化を維持しながら、学習可能なトラバーサビリティプロンプトを通じてタスク固有の知識を注入する。
以上の結果から,Vita は最先端の IoU と Precision を実現し,偽陽性の大幅な低減とクロスドメインの強力な一般化を実現した。
- 参考スコア(独自算出の注目度): 12.275095764403432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-based approaches have become the dominant paradigm for traversability estimation in unstructured outdoor environments, typically adapting vision foundation models (VFMs) via semantic segmentation supervision. However, this paradigm faces three fundamental challenges that undermine its reliability: the task-agnostic design of VFMs, the ambiguity of traversability annotations, and the discrepancy between semantic labels and physical safety. We propose Vision-to-Traversability Adaptation (ViTA), a framework that adapts VFMs for reliable traversability estimation, instantiated on SAM2. ViTA injects task-specific knowledge through learnable traversability prompts while preserving the VFM's cross-domain generalization. To handle annotation ambiguity, we introduce Perspective-Diversified Training, which estimates semantic uncertainty to suppress confident predictions at ambiguous boundaries. To bridge the semantic-traversability discrepancy, we distill geometric knowledge during training, enabling slope and elevation reasoning from RGB images alone at inference. The semantic and geometric outputs are fused into a continuous traversability score that reflects both semantic uncertainty and geometric risk. Evaluations across diverse domains, including challenging real-world off-road datasets, demonstrate that ViTA achieves state-of-the-art IoU and Precision with substantial false-positive reduction and strong cross-domain generalization.
- Abstract(参考訳): 視覚に基づくアプローチは、非構造屋外環境において、セマンティックセグメンテーションによる視覚基盤モデル(VFM)の適用により、トラバーサビリティ推定の主要なパラダイムとなっている。
しかしながら、このパラダイムは、その信頼性を損なう3つの根本的な課題に直面している。VFMのタスク非依存設計、トラバーサビリティアノテーションの曖昧さ、セマンティックラベルと物理的な安全性の相違である。
SAM2 上でインスタンス化される信頼性トラバーサビリティ推定に VFM を適用するフレームワークである Vision-to-Traversability Adaptation (ViTA) を提案する。
ViTAは、VFMのクロスドメインの一般化を維持しながら、学習可能なトラバーサビリティプロンプトを通じてタスク固有の知識を注入する。
アノテーションの曖昧さに対処するために,不確実性を推定し,不明瞭な境界における確実な予測を抑える「パースペクティブ・ディバーシファイド・トレーニング」を導入する。
セマンティック・トラバーサビリティの相違を補うため、トレーニング中に幾何学的知識を抽出し、推論時にのみRGB画像からの傾きと標高の推論を可能にする。
意味的および幾何学的出力は、意味的不確実性と幾何学的リスクの両方を反映する連続的可逆性スコアに融合される。
現実世界のオフロードデータセットに挑戦するなど、さまざまな領域における評価は、ViTAが最先端のIoUとPrecisionを実現し、偽陽性の大幅な削減と強力なクロスドメインの一般化を実現していることを示している。
関連論文リスト
- Uncertainty-Aware Gaussian Map for Vision-Language Navigation [63.97713877754199]
Vision-Language Navigation (VLN)は、自然言語の指示に従って3D環境をナビゲートするエージェントを必要とする。
本研究では,3種類の知覚的不確実性(幾何学的,意味的,外見的不確実性)を明示的にモデル化し,エージェントの観察空間に統合し,情報的意思決定を可能にする。
論文 参考訳(メタデータ) (2026-05-26T03:33:47Z) - From Local to Global to Mechanistic: An iERF-Centered Unified Framework for Interpreting Vision Models [29.908678230814015]
iERF中心のフレームワークを導入し,局所的,グローバル的,メカニスティックな1つの解析ユニットの解釈性を統一する。
局所的に、共有比(Sharing Ratio Decomposition, SRD)は、各PFVを、共有比を介して上流のPFVの混合として表現し、iERFを伝播して、クラス別サリエンシマップを構築する。
グローバルな視点では,iERFをセマンティックラベルとして利用するConcept-Anchored Feature Explanation (CAFE)を導入する。
論文 参考訳(メタデータ) (2026-05-01T07:25:49Z) - Towards Domain-Generalized Open-Vocabulary Object Detection: A Progressive Domain-invariant Cross-modal Alignment Method [59.30562121800656]
Open-Vocabulary Object Detectionは、新しいカテゴリへの一般化において大きな成功を収めた。
我々は、OVODパラダイムの原則的な見直しを行い、根本的な脆弱性を明らかにする。
PICA(Progressive Domain-invariant Cross-Modal Alignment)を提案する。
論文 参考訳(メタデータ) (2026-03-29T07:39:31Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation [17.405818788700234]
本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
論文 参考訳(メタデータ) (2025-12-24T04:39:45Z) - TransFIRA: Transfer Learning for Face Image Recognizability Assessment [73.61309363885552]
TransFIRAは軽量でアノテーションのないフレームワークで、埋め込みスペースで直接認識できる。
顔以外の新しい拡張には、エンコーダで座屈した説明可能性があり、これは、劣化と被写体固有の要因が認識可能性にどのように影響するかを示す。
実験では、顔に対する最先端の結果、身体認識に対する強い堅牢性、およびデータセット間のシフトの下で確認された。
論文 参考訳(メタデータ) (2025-10-07T18:16:21Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Exploiting the Asymmetric Uncertainty Structure of Pre-trained VLMs on the Unit Hypersphere [2.803487857262511]
本稿では,単位超球面上で事前学習された視覚言語モデルから確率的埋め込みを構築することを提案し,不確実な定量化を実現する。
確立されたベンチマークに対する確率的埋め込みの有効性を検証し,テキストおよび視覚データの不確実性構造における非対称性の性質を示す包括的アブレーション研究を行った。
論文 参考訳(メタデータ) (2025-05-16T09:24:29Z) - Evidential Semantic Mapping in Off-road Environments with Uncertainty-aware Bayesian Kernel Inference [5.120567378386614]
本稿では,オフロード環境における信頼性を高めることを目的とした,明白なセマンティックマッピングフレームワークを提案する。
セマンティックな不確かさを適応的に処理することにより、提案フレームワークは、これまで見えなかった環境においても、周囲の堅牢な表現を構築する。
論文 参考訳(メタデータ) (2024-03-21T05:13:34Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。