論文の概要: Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework
- arxiv url: http://arxiv.org/abs/2508.18249v1
- Date: Mon, 25 Aug 2025 17:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.89753
- Title: Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework
- Title(参考訳): マルチモーダル自己教師型フレームワークによるシーン非依存的トラバーサビリティラベリングと推定
- Authors: Zipeng Fang, Yanbo Wang, Lei Zhao, Weidong Chen,
- Abstract要約: トレーバービリティの推定は、ロボットが多様な地形や環境を移動できるようにするために重要である。
トラバーサビリティラベリングと推定のためのマルチモーダルな自己教師型フレームワークを提案する。
当社のアプローチは、さまざまなデータセットの約88%のIoUを一貫して達成しています。
- 参考スコア(独自算出の注目度): 9.925474085627275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traversability estimation is critical for enabling robots to navigate across diverse terrains and environments. While recent self-supervised learning methods achieve promising results, they often fail to capture the characteristics of non-traversable regions. Moreover, most prior works concentrate on a single modality, overlooking the complementary strengths offered by integrating heterogeneous sensory modalities for more robust traversability estimation. To address these limitations, we propose a multimodal self-supervised framework for traversability labeling and estimation. First, our annotation pipeline integrates footprint, LiDAR, and camera data as prompts for a vision foundation model, generating traversability labels that account for both semantic and geometric cues. Then, leveraging these labels, we train a dual-stream network that jointly learns from different modalities in a decoupled manner, enhancing its capacity to recognize diverse traversability patterns. In addition, we incorporate sparse LiDAR-based supervision to mitigate the noise introduced by pseudo labels. Finally, extensive experiments conducted across urban, off-road, and campus environments demonstrate the effectiveness of our approach. The proposed automatic labeling method consistently achieves around 88% IoU across diverse datasets. Compared to existing self-supervised state-of-the-art methods, our multimodal traversability estimation network yields consistently higher IoU, improving by 1.6-3.5% on all evaluated datasets.
- Abstract(参考訳): トレーバービリティの推定は、ロボットが多様な地形や環境を移動できるようにするために重要である。
近年の自己教師あり学習手法は有望な結果をもたらすが、しばしば非可逆領域の特徴を捉えることができない。
さらに、多くの先行研究は、より堅牢な可逆性推定のために異質な感覚モーダル性を統合することによって得られる相補的な強みを見越して、単一のモダリティに集中している。
これらの制約に対処するために、トラバーサビリティラベリングと推定のためのマルチモーダルな自己教師型フレームワークを提案する。
まず、私たちのアノテーションパイプラインは、フットプリント、LiDAR、カメラデータを視覚基盤モデルのプロンプトとして統合し、意味的および幾何学的手がかりの両方を考慮に入れたトラバーサビリティラベルを生成します。
そして、これらのラベルを活用して、異なるモダリティから協調的に学習するデュアルストリームネットワークを訓練し、その能力を高めて、多様なトラバーサビリティパターンを認識する。
さらに,擬似ラベルによるノイズを軽減するために,疎LiDARに基づく監視を取り入れた。
最後に, 都市, オフロード, キャンパス環境にまたがる広範な実験を行い, 提案手法の有効性を実証した。
提案する自動ラベリング手法は,多種多様なデータセットの約88%のIoUを一貫して達成する。
既存の最先端手法と比較して、我々のマルチモーダル・トラバーサビリティ推定ネットワークは一貫してIoUを上昇させ、すべての評価データセットで1.6-3.5%改善する。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T13:00:29Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection [18.285299184361598]
LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。
DDFH(Dis Distribution Discrepancy and Feature Heterogeneity)と呼ばれる新しい効果的なアクティブラーニング手法を提案する。
幾何学的特徴とモデル埋め込みを同時に考慮し、インスタンスレベルとフレームレベルの両方の観点から情報を評価する。
論文 参考訳(メタデータ) (2024-09-09T08:26:11Z) - Stochastic Vision Transformers with Wasserstein Distance-Aware Attention [8.407731308079025]
自己教師付き学習は、限られたラベル付きデータから知識を得るための最も有望なアプローチの1つである。
我々は、不確実性と距離認識を自己教師付き学習パイプラインに統合する新しいビジョントランスフォーマーを導入する。
提案手法は,多種多様なデータセットを対象とした多種多様な実験において,自己教師付きベースラインを超える精度とキャリブレーションを実現する。
論文 参考訳(メタデータ) (2023-11-30T15:53:37Z) - Fusing Pseudo Labels with Weak Supervision for Dynamic Traffic Scenarios [0.0]
我々は、異種データセットで訓練されたオブジェクト検出モデルから擬似ラベルをアマルガメートする弱い教師付きラベル統一パイプラインを導入する。
我々のパイプラインは、異なるデータセットからのラベルの集約、バイアスの修正、一般化の強化を通じて、統一されたラベル空間をエンゲージする。
我々は,統合ラベル空間を用いた単独物体検出モデルを再学習し,動的交通シナリオに精通した弾力性のあるモデルを構築した。
論文 参考訳(メタデータ) (2023-08-30T11:33:07Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。