論文の概要: IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.10110v1
- Date: Thu, 13 Mar 2025 07:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:04.794524
- Title: IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models
- Title(参考訳): IMPACT:視覚言語モデルによるアクセプタブルコンタクトトラジェクタを用いた知的運動計画
- Authors: Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita,
- Abstract要約: 本稿では、視覚言語モデル(VLM)を用いて環境意味を推論する新しい動き計画フレームワークIMPACTを提案する。
20のシミュレーションと10の現実世界シーンを用いて実験を行い、タスク成功率、物体変位、人間評価器からのフィードバックを用いて評価する。
3620以上のシミュレーションと200件の現実世界での試行の結果から,IMPACTは粗い環境下での効率的な接触リッチな動作計画を可能にすることが示唆された。
- 参考スコア(独自算出の注目度): 2.889915951061306
- License:
- Abstract: Motion planning involves determining a sequence of robot configurations to reach a desired pose, subject to movement and safety constraints. Traditional motion planning finds collision-free paths, but this is overly restrictive in clutter, where it may not be possible for a robot to accomplish a task without contact. In addition, contacts range from relatively benign (e.g., brushing a soft pillow) to more dangerous (e.g., toppling a glass vase). Due to this diversity, it is difficult to characterize which contacts may be acceptable or unacceptable. In this paper, we propose IMPACT, a novel motion planning framework that uses Vision-Language Models (VLMs) to infer environment semantics, identifying which parts of the environment can best tolerate contact based on object properties and locations. Our approach uses the VLM's outputs to produce a dense 3D "cost map" that encodes contact tolerances and seamlessly integrates with standard motion planners. We perform experiments using 20 simulation and 10 real-world scenes and assess using task success rate, object displacements, and feedback from human evaluators. Our results over 3620 simulation and 200 real-world trials suggest that IMPACT enables efficient contact-rich motion planning in cluttered settings while outperforming alternative methods and ablations. Supplementary material is available at https://impact-planning.github.io/.
- Abstract(参考訳): 動きの計画には、動きと安全性の制約を条件として、望ましいポーズに到達するための一連のロボット構成を決定することが含まれる。
従来の動作計画では、衝突のない経路が見つかるが、これは、ロボットが接触なしにタスクを達成できないような、乱雑な状況では過度に制限される。
また、接触は比較的良性(例えば、柔らかい枕を磨く)からより危険(例えば、ガラス瓶を叩く)まで様々である。
この多様性のため、どの接触が受け入れられるか、受け入れられないかを特徴付けることは困難である。
本稿では,視覚言語モデル(VLM)を用いて環境セマンティクスを推論し,オブジェクトの特性や位置に基づいて,環境のどの部分が最適な接触を許容できるかを識別する,新しい動作計画フレームワークIMPACTを提案する。
我々のアプローチでは、VLMの出力を使用して、接触耐性を符号化し、標準のモーションプランナーとシームレスに統合する高密度な3次元「コストマップ」を作成する。
20のシミュレーションと10の現実世界シーンを用いて実験を行い、タスク成功率、物体変位、人間評価器からのフィードバックを用いて評価する。
3620以上のシミュレーションと200件の現実世界での試行の結果から,IMPACTは分散した環境下での効率的な接触リッチな動作計画を可能にし,代替手法やアブリケーションよりも優れていたことが示唆された。
追加資料はhttps://impact-planning.github.io/.comで入手できる。
関連論文リスト
- MotionCom: Automatic and Motion-Aware Image Composition with LLM and Video Diffusion Prior [51.672193627686]
MotionComは、トレーニングなしのモーションアウェア拡散に基づく画像合成である。
ターゲットオブジェクトを動的にコヒーレントな結果で新しいシーンにシームレスに統合することを可能にする。
論文 参考訳(メタデータ) (2024-09-16T08:44:17Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Language-Conditioned Path Planning [68.13248140217222]
LACO(Language-Conditioned Collision Functions)は、単一ビューイメージ、言語プロンプト、ロボット構成のみを使用して衝突関数を学習する。
LACOはロボットと環境の衝突を予測し、オブジェクトアノテーション、ポイントクラウドデータ、地平線オブジェクトメッシュを必要とせずに、柔軟な条件付きパス計画を可能にする。
シミュレーションと実世界の両方において、LACOは衝突を禁止せず、衝突の安全な物体との相互作用を可能にする複雑な、ニュアンスのある経路計画を促進することを実証している。
論文 参考訳(メタデータ) (2023-08-31T17:56:13Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse
Sensors [69.75711933065378]
ヘッドセットとコントローラーのポーズは,高度に制約された環境においても,現実的なフルボディのポーズを生成可能であることを示す。
本稿では,環境表現,接触報酬,シーンランダム化の3つの特徴について論じる。
論文 参考訳(メタデータ) (2023-06-09T04:40:38Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - Robot Active Neural Sensing and Planning in Unknown Cluttered
Environments [0.0]
未知の乱雑な環境でのアクティブなセンシングと計画は、ホームサービス、探索と救助、狭い通行検査、医療支援を提供するロボットにとって、オープンな課題である。
本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。
我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要なロボットの相互作用を避けるためにオブジェクト形状推論を行う。
論文 参考訳(メタデータ) (2022-08-23T16:56:54Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。