Fugu-MT 論文翻訳(概要): A Contrastive Fewshot RGBD Traversability Segmentation Framework for Indoor Robotic Navigation

論文の概要: A Contrastive Fewshot RGBD Traversability Segmentation Framework for Indoor Robotic Navigation

arxiv url: http://arxiv.org/abs/2603.06927v1
Date: Fri, 06 Mar 2026 22:56:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.023413
Title: A Contrastive Fewshot RGBD Traversability Segmentation Framework for Indoor Robotic Navigation
Title（参考訳）: 室内ロボットナビゲーションのための対照的なFewshot RGBDトラバーサビリティ・セグメンテーション・フレームワーク
Authors: Qiyuan An, Tuan Dang, Fillia Makedon,
Abstract要約: 純粋な視覚ベースのモデルは、しばしば椅子の脚のような薄い障害物を検出することができず、深刻な安全性のリスクを生じさせる。 RGB画像とスパース1Dレーザー深度情報を利用するマルチモーダルセグメンテーションフレームワークを提案する。提案手法は, 最大9%のmIoUを1ショットおよび5ショット設定で達成する。
参考スコア（独自算出の注目度）: 0.7258309433541204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Indoor traversability segmentation aims to identify safe, navigable free space for autonomous agents, which is critical for robotic navigation. Pure vision-based models often fail to detect thin obstacles, such as chair legs, which can pose serious safety risks. We propose a multi-modal segmentation framework that leverages RGB images and sparse 1D laser depth information to capture geometric interactions and improve the detection of challenging obstacles. To reduce the reliance on large labeled datasets, we adopt the few-shot segmentation (FSS) paradigm, enabling the model to generalize from limited annotated examples. Traditional FSS methods focus solely on positive prototypes, often leading to overfitting to the support set and poor generalization. To address this, we introduce a negative contrastive learning (NCL) branch that leverages negative prototypes (obstacles) to refine free-space predictions. Additionally, we design a two-stage attention depth module to align 1D depth vectors with RGB images both horizontally and vertically. Extensive experiments on our custom-collected indoor RGB-D traversability dataset demonstrate that our method outperforms state-of-the-art FSS and RGB-D segmentation baselines, achieving up to 9\% higher mIoU under both 1-shot and 5-shot settings. These results highlight the effectiveness of leveraging negative prototypes and sparse depth for robust and efficient traversability segmentation.
Abstract（参考訳）: Indoor traversability segmentationは、自律エージェントのための安全でナビゲート可能な自由空間を特定することを目的としている。純粋な視覚ベースのモデルは、しばしば椅子の脚のような薄い障害物を検出することができず、深刻な安全性のリスクを生じさせる。本稿ではRGB画像とスパース1Dレーザー深度情報を利用して幾何学的相互作用を捉えるマルチモーダルセグメンテーションフレームワークを提案する。大規模ラベル付きデータセットへの依存を軽減するため,数ショットセグメンテーション(FSS)パラダイムを採用し,限定的な注釈付き例からモデルを一般化する。従来のFSS法は正のプロトタイプにのみ焦点を合わせており、しばしばサポートセットに過度に適合し、一般化が不十分である。これを解決するために、負のプロトタイプ(障害物)を利用して自由空間予測を洗練する負のコントラスト学習(NCL)分岐を導入する。さらに,2段階の注目深度モジュールを設計し,水平および垂直のRGB画像に1次元深度ベクトルをアライメントする。カスタムコンパイルされた屋内RGB-Dトラバーサビリティデータセットの大規模な実験により、我々の手法は最先端のFSSとRGB-Dセグメンテーションベースラインを上回り、1ショットと5ショットの両方で最大9倍のmIoUを達成することを示した。これらの結果は, 頑健かつ効率的なトラバーサビリティセグメンテーションにおいて, 負のプロトタイプとスパース深さを活用することの有効性を強調した。

関連論文リスト

DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization [43.974708665104565]
本稿では,RGB-Dシーン解析に特化して設計された半教師付き学習フレームワークDepthMatchを紹介する。本稿では,RGB-D画像対におけるテクスチャと空間的特徴の潜伏関係を明らかにするために,補間パッチ混在拡大法を提案する。また,従来の複合核融合モジュールを代替する軽量空間先行インジェクタを設計し,不均一な特徴核融合の効率を向上する。
論文参考訳（メタデータ） (2025-05-26T14:26:31Z)
CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文参考訳（メタデータ） (2025-04-15T14:30:26Z)
IAM: Enhancing RGB-D Instance Segmentation with New Benchmarks [4.3266254914862445]
RGB-Dセグメンテーションは、RGBのみの手法よりもリッチなシーン理解を約束する。インスタンスレベルのRGB-Dセグメンテーションデータセットは比較的少ない。インスタンスレベルで区別された3つのRGB-Dインスタンスセグメンテーションベンチマークを導入する。本稿では,RGB-Dデータ統合のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2025-01-03T08:03:24Z)
Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [11.648973329789973]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文参考訳（メタデータ） (2024-09-23T15:23:01Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
Progressively Guided Alternate Refinement Network for RGB-D Salient Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。そこで本研究では,改良のための改良ネットワークを提案する。我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-08-17T02:55:06Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。