論文の概要: DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation
- arxiv url: http://arxiv.org/abs/2510.05662v1
- Date: Tue, 07 Oct 2025 08:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:09.39354
- Title: DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation
- Title(参考訳): DeLTa: デモと言語ガイドによる新しい透明オブジェクト操作
- Authors: Taeyeop Lee, Gyuree Kang, Bowen Wen, Youngho Kim, Seunghyeok Back, In So Kweon, David Hyunchul Shim, Kuk-Jin Yoon,
- Abstract要約: DeLTaは、深度推定と6次元ポーズ推定と視覚言語計画を統合した新しいフレームワークである。
提案手法の重要な利点は,カテゴリレベルの事前訓練や追加訓練を必要とせず,新しい透明物体に6次元軌道を一般化する,単段述語法である。
- 参考スコア(独自算出の注目度): 85.60798754284006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the prevalence of transparent object interactions in human everyday life, transparent robotic manipulation research remains limited to short-horizon tasks and basic grasping capabilities.Although some methods have partially addressed these issues, most of them have limitations in generalizability to novel objects and are insufficient for precise long-horizon robot manipulation. To address this limitation, we propose DeLTa (Demonstration and Language-Guided Novel Transparent Object Manipulation), a novel framework that integrates depth estimation, 6D pose estimation, and vision-language planning for precise long-horizon manipulation of transparent objects guided by natural task instructions. A key advantage of our method is its single-demonstration approach, which generalizes 6D trajectories to novel transparent objects without requiring category-level priors or additional training. Additionally, we present a task planner that refines the VLM-generated plan to account for the constraints of a single-arm, eye-in-hand robot for long-horizon object manipulation tasks. Through comprehensive evaluation, we demonstrate that our method significantly outperforms existing transparent object manipulation approaches, particularly in long-horizon scenarios requiring precise manipulation capabilities. Project page: https://sites.google.com/view/DeLTa25/
- Abstract(参考訳): ヒトの日常生活における透明な物体相互作用の頻度にもかかわらず、透明なロボット操作の研究は短期水平作業と基本的な把握能力に限られており、これらの問題に部分的に対処する手法もあるが、そのほとんどは新規物体への一般化性に限界があり、正確な長距離ロボット操作には不十分である。
この制限に対処するため,DeLTa (Demonstration and Language-Guided Novel Transparent Object Manipulation) を提案する。
提案手法の重要な利点は,カテゴリレベルの事前訓練や追加訓練を必要とせず,新しい透明物体に6次元軌道を一般化する,単段述語法である。
さらに,長い水平物体操作タスクのための片腕眼ロボットの制約を考慮し,VLM生成計画の洗練を図るタスクプランナを提案する。
包括的評価により,既存の透明なオブジェクト操作アプローチ,特に高精度な操作能力を必要とする長距離シナリオにおいて,本手法が顕著に優れていることを示す。
プロジェクトページ: https://sites.google.com/view/DeLTa25/
関連論文リスト
- Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation [62.711546725154314]
一般化可能なロボット操作のための大規模言語モデル(LLM)に基づく基盤的視覚言語計画モデルであるゴンドラについて紹介する。
G Gondola氏はマルチビューイメージとヒストリプランを使って、インターリーブされたテキストとターゲットオブジェクトとロケーションのセグメンテーションマスクを備えた次のアクションプランを作成する。
G Gondolaは、GemBenchデータセットの4つのレベルすべてにわたって、最先端のLCMベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-06-12T20:04:31Z) - NOD-TAMP: Generalizable Long-Horizon Planning with Neural Object Descriptors [16.475094344344512]
一般化可能なオブジェクト中心機能を生成するニューラルオブジェクト記述子(NOD)と,多段階タスクを解決するための短軸スキルをチェーンするタスク・アンド・モーション・プランニング(TAMP)フレームワークの2つのパラダイムを組み合わせることを提案する。
我々は,少数の人間による実験から短い操作軌跡を抽出し,NOD特徴を用いてこれらの軌跡を適応させる,TAMPベースのフレームワークNOD-TAMPを紹介する。
論文 参考訳(メタデータ) (2023-11-02T18:26:28Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Planning with Spatial-Temporal Abstraction from Point Clouds for
Deformable Object Manipulation [64.00292856805865]
空間抽象と時間抽象の両方を組み込んだ空間抽象型PlAnning(PASTA)を提案する。
我々のフレームワークは,高次元の3次元観測を潜時ベクトルの集合にマッピングし,潜時集合表現の上のスキルシーケンスを計画する。
本手法は,実世界のオブジェクト操作を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-10-27T19:57:04Z) - ManipulaTHOR: A Framework for Visual Object Manipulation [27.17908758246059]
物理対応で視覚的に豊かなAI2-THORフレームワーク上に構築されたオブジェクト操作のためのフレームワークを提案する。
このタスクは、一般的なポイントナビゲーションタスクをオブジェクト操作に拡張し、3D障害物回避を含む新しい課題を提供する。
論文 参考訳(メタデータ) (2021-04-22T17:49:04Z) - A Long Horizon Planning Framework for Manipulating Rigid Pointcloud
Objects [25.428781562909606]
本稿では,剛体物体の操作に伴う長期計画問題の解決のための枠組みを提案する。
提案手法はオブジェクトサブゴールの空間における計画であり,ロボットとオブジェクトの相互作用のダイナミクスに関する推論からプランナーを解放する。
論文 参考訳(メタデータ) (2020-11-16T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。