Fugu-MT 論文翻訳(概要): Direct Contact-Tolerant Motion Planning With Vision Language Models

論文の概要: Direct Contact-Tolerant Motion Planning With Vision Language Models

arxiv url: http://arxiv.org/abs/2603.05017v1
Date: Thu, 05 Mar 2026 10:05:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.932973
Title: Direct Contact-Tolerant Motion Planning With Vision Language Models
Title（参考訳）: 視覚言語モデルを用いた直接接触耐性運動計画
Authors: He Li, Jian Sun, Chengyang Li, Guoliang Li, Qiyu Ruan, Shuai Wang, Chengzhong Xu,
Abstract要約: 乱雑な環境でのナビゲーションは、しばしばロボットが可動または変形可能な物体との接触を許容する必要がある。本稿では,視覚言語モデル(VLM)を直接的視点認識とナビゲーションに統合したDCTプランナを提案する。我々はIsaac Simと本物のカーライクなロボットにDCTを実装し、移動障害物のある散らばった環境において、DCTが堅牢で効率的なナビゲーションを実現することを実証した。
参考スコア（独自算出の注目度）: 64.48049143625063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Navigation in cluttered environments often requires robots to tolerate contact with movable or deformable objects to maintain efficiency. Existing contact-tolerant motion planning (CTMP) methods rely on indirect spatial representations (e.g., prebuilt map, obstacle set), resulting in inaccuracies and a lack of adaptiveness to environmental uncertainties. To address this issue, we propose a direct contact-tolerant (DCT) planner, which integrates vision-language models (VLMs) into direct point perception and navigation, including two key components. The first one is VLM point cloud partitioner (VPP), which performs contact-tolerance reasoning in image space using VLM, caches inference masks, propagates them across frames using odometry, and projects them onto the current scan to generate a contact-aware point cloud. The second innovation is VPP guided navigation (VGN), which formulates CTMP as a perception-to-control optimization problem under direct contact-aware point cloud constraints, which is further solved by a specialized deep neural network (DNN). We implement DCT in Isaac Sim and a real car-like robot, demonstrating that DCT achieves robust and efficient navigation in cluttered environments with movable obstacles, outperforming representative baselines across diverse metrics. The code is available at: https://github.com/ChrisLeeUM/DCT.
Abstract（参考訳）: 乱雑な環境でのナビゲーションは、ロボットが効率を維持するために可動体や変形可能な物体との接触を許容する必要があることが多い。既存のCTMP法は、間接的な空間表現(例えば、地図、障害物セット)に依存しており、不正確さと環境不確実性への適応性の欠如をもたらす。この問題に対処するために,視覚言語モデル(VLM)を2つの重要なコンポーネントを含む直接点認識とナビゲーションに統合する,直接接触耐性(DCT)プランナを提案する。 1つ目はVLMポイントクラウドパーティショナ(VPP)で、VLMを使用して画像空間で接触耐性推論を行い、推論マスクをキャッシュし、オドメトリーを用いてフレーム間で伝播し、現在のスキャンに投影してコンタクト対応のポイントクラウドを生成する。第2のイノベーションはVPPガイドナビゲーション(VGN)である。これは、直接触対応のポイントクラウド制約の下でCTMPを知覚制御最適化問題として定式化し、専門のディープニューラルネットワーク(DNN)によってさらに解決される。私たちはIsaac Simと本物のカーライクなロボットでDCTを実装し、さまざまな指標で代表的基準を上回り、散らばった環境において、DCTが堅牢で効率的なナビゲーションを実現することを実証した。コードは、https://github.com/ChrisLeeUM/DCTで入手できる。

関連論文リスト

AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文参考訳（メタデータ） (2026-03-18T12:43:47Z)
TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making [90.18833928208333]
Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN)は、複数のサブオンデマンドと明示的なタスク嗜好を含む長距離ナビゲーションのための新しいベンチマークである。空間記憶のために,3次元点雲蓄積と2次元意味マッピングを組み合わせたMASMapを設計した。本手法は,認識精度とナビゲーションの堅牢性の両方において,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-11-21T13:12:13Z)
Real-Time Navigation for Autonomous Aerial Vehicles Using Video [11.414350041043326]
我々は,コンピュータビジョン(CV)アルゴリズムの作業量を削減するために,新しいマルコフ決定プロセス(MDP)フレームワークを導入する。提案するフレームワークは,機能ベースとニューラルネットベースのオブジェクト検出タスクの両方に適用する。これらの総合的なテストは、エネルギー消費と速度に大きな利点を示し、精度は限られている。
論文参考訳（メタデータ） (2025-04-01T01:14:42Z)
IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models [3.3871564496652335]
IMPACTは、視覚言語モデルを使って環境意味論を推論する新しい動き計画フレームワークである。 3200以上のシミュレーションと200以上の実世界の実験の結果から,IMPACTは乱雑な環境下での効率的な接触リッチな動作計画を可能にすることが示唆された。
論文参考訳（メタデータ） (2025-03-13T07:09:00Z)
Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。 3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文参考訳（メタデータ） (2023-08-20T18:23:07Z)
Polyline Based Generative Navigable Space Segmentation for Autonomous Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文参考訳（メタデータ） (2021-10-29T19:50:48Z)
Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文参考訳（メタデータ） (2020-07-28T07:34:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。