論文の概要: Understanding Physical Properties of Unseen Deformable Objects by Leveraging Large Language Models and Robot Actions
- arxiv url: http://arxiv.org/abs/2506.03760v1
- Date: Wed, 04 Jun 2025 09:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.545671
- Title: Understanding Physical Properties of Unseen Deformable Objects by Leveraging Large Language Models and Robot Actions
- Title(参考訳): 大規模言語モデルとロボット行動の活用による見えない変形物体の物理的特性の理解
- Authors: Changmin Park, Beomjoon Lee, Haechan Jung, Haejin Jung, Changjoo Nam,
- Abstract要約: 変形性のような特別な特性を持つ見えないオブジェクトを扱うことは、従来のタスクやモーションプランニングアプローチでは難しい。
近年のLarge Language Models (LLM) ベースのタスクプランニングの結果は、目に見えないオブジェクトを推論する能力を示している。
課題計画のために,LLMを用いた非可視変形物体の物理的特性を探索する手法を提案する。
- 参考スコア(独自算出の注目度): 4.606734972599561
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we consider the problem of understanding the physical properties of unseen objects through interactions between the objects and a robot. Handling unseen objects with special properties such as deformability is challenging for traditional task and motion planning approaches as they are often with the closed world assumption. Recent results in Large Language Models (LLMs) based task planning have shown the ability to reason about unseen objects. However, most studies assume rigid objects, overlooking their physical properties. We propose an LLM-based method for probing the physical properties of unseen deformable objects for the purpose of task planning. For a given set of object properties (e.g., foldability, bendability), our method uses robot actions to determine the properties by interacting with the objects. Based on the properties examined by the LLM and robot actions, the LLM generates a task plan for a specific domain such as object packing. In the experiment, we show that the proposed method can identify properties of deformable objects, which are further used for a bin-packing task where the properties take crucial roles to succeed.
- Abstract(参考訳): 本稿では,物体とロボットの相互作用を通して,見えない物体の物理的特性を理解することの問題点について考察する。
変形性のような特殊な性質を持つ見えない物体を扱うことは、伝統的なタスクや運動計画アプローチでは、しばしばクローズドワールドの仮定を扱うため困難である。
近年のLarge Language Models (LLM) ベースのタスクプランニングの結果は、目に見えないオブジェクトを推論する能力を示している。
しかし、ほとんどの研究は剛体物体を仮定し、その物理的性質を見渡す。
課題計画のために,LLMを用いた非可視変形物体の物理的特性を探索する手法を提案する。
対象物の性質(例えば、折りたたみ性、曲げ性)に対して、本手法は、対象物と相互作用して特性を決定するためにロボットアクションを使用する。
LLMとロボットの動作によって調査された特性に基づいて、LLMはオブジェクトパッキングのような特定の領域のタスクプランを生成する。
提案手法は, 変形可能な物体の特性を同定し, その特性が重要な役割を担っているビン包装作業にさらに利用されることを示す。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Which objects help me to act effectively? Reasoning about physically-grounded affordances [0.6291443816903801]
この理解の重要な側面は、オブジェクトの余裕を検出することである。
提案手法は,大規模言語モデル (LLM) と視覚言語モデル (VLM) の対話を利用して,オープンワールドのアベイランス検出を実現する。
我々のシステムを物理的世界に接地することで、ロボットの体現と、遭遇する物体の本質的な性質を説明できる。
論文 参考訳(メタデータ) (2024-07-18T11:08:57Z) - Interactive Learning of Physical Object Properties Through Robot Manipulation and Database of Object Measurements [20.301193437161867]
このフレームワークは、テーブル上のオブジェクトに関する学習を最大化する探索的なアクション選択を含む。
ロボットパイプラインは、ロギングモジュールとオブジェクトのオンラインデータベースと統合されており、グリッパーが異なる63のオブジェクトの24,000以上の計測結果を含んでいる。
論文 参考訳(メタデータ) (2024-04-10T20:59:59Z) - ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics [55.85916671269219]
本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。
包括的データセットは、2936の現実世界のスキャンされた剛体オブジェクトと100の明瞭なオブジェクトに対して、幾何学的に一貫性があり、操作指向の6Dポーズラベルを備えている。
本ベンチマークは,ポーズ推定,ポーズ認識操作,実ロボットのスキル伝達における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T07:48:32Z) - Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics [5.497036643694402]
我々は、シンプルなシミュレーション環境を構築し、ゼロショット環境では、テキストとマルチモーダルLLMの両方が、様々なオブジェクトに関する原子世界の知識を示すが、オブジェクト操作と配置タスクのための正しいソリューションで、この知識を構成するのに失敗する例を示す。
また、より洗練されたクロスモーダルな注意で訓練された視覚言語モデルBLIPを使用して、そのモデルがグラウンドに失敗するオブジェクトの物理的特性に関連する事例を特定する。
論文 参考訳(メタデータ) (2024-02-24T00:01:01Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。
トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。
シミュレーションと実環境の両方で実験的な評価を行う。
論文 参考訳(メタデータ) (2023-01-15T09:37:55Z) - CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties
via Video Question Answering [50.61988087577871]
CRIPP-VQA(CRIPP-VQA)は、シーン内のオブジェクトの暗黙的な物理的特性を推論するための新しいビデオ質問応答データセットである。
CRIPP-VQAには、動作中の物体のビデオが含まれており、反事実的推論に関わる疑問が注がれている。
実験の結果,暗黙的特性に関する疑問に答える上で,驚くべき,重要なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2022-11-07T18:55:26Z) - O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance
Learning [24.9242853417825]
本稿では,様々なタスクに対するオブジェクト・オブジェクトのインタラクションを学習するための,統一的なアベイランス学習フレームワークを提案する。
我々は、人間のアノテーションやデモンストレーションを必要とせずに、大規模なオブジェクト・オブジェクト・アベイランス・ラーニングを行うことができる。
大規模合成データと実世界のデータを用いた実験により,提案手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-06-29T04:38:12Z) - Object-Driven Active Mapping for More Accurate Object Pose Estimation
and Robotic Grasping [5.385583891213281]
このフレームワークは、オブジェクトSLAMシステム上に構築され、同時多目的ポーズ推定プロセスと統合される。
マッピングモジュールと探索戦略を組み合わせることにより、ロボットの把握と互換性のある正確なオブジェクトマップを生成することができる。
論文 参考訳(メタデータ) (2020-12-03T09:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。