論文の概要: Understanding Physical Properties of Unseen Deformable Objects by Leveraging Large Language Models and Robot Actions
- arxiv url: http://arxiv.org/abs/2506.03760v1
- Date: Wed, 04 Jun 2025 09:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.545671
- Title: Understanding Physical Properties of Unseen Deformable Objects by Leveraging Large Language Models and Robot Actions
- Title(参考訳): 大規模言語モデルとロボット行動の活用による見えない変形物体の物理的特性の理解
- Authors: Changmin Park, Beomjoon Lee, Haechan Jung, Haejin Jung, Changjoo Nam,
- Abstract要約: 変形性のような特別な特性を持つ見えないオブジェクトを扱うことは、従来のタスクやモーションプランニングアプローチでは難しい。
近年のLarge Language Models (LLM) ベースのタスクプランニングの結果は、目に見えないオブジェクトを推論する能力を示している。
課題計画のために,LLMを用いた非可視変形物体の物理的特性を探索する手法を提案する。
- 参考スコア(独自算出の注目度): 4.606734972599561
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we consider the problem of understanding the physical properties of unseen objects through interactions between the objects and a robot. Handling unseen objects with special properties such as deformability is challenging for traditional task and motion planning approaches as they are often with the closed world assumption. Recent results in Large Language Models (LLMs) based task planning have shown the ability to reason about unseen objects. However, most studies assume rigid objects, overlooking their physical properties. We propose an LLM-based method for probing the physical properties of unseen deformable objects for the purpose of task planning. For a given set of object properties (e.g., foldability, bendability), our method uses robot actions to determine the properties by interacting with the objects. Based on the properties examined by the LLM and robot actions, the LLM generates a task plan for a specific domain such as object packing. In the experiment, we show that the proposed method can identify properties of deformable objects, which are further used for a bin-packing task where the properties take crucial roles to succeed.
- Abstract(参考訳): 本稿では,物体とロボットの相互作用を通して,見えない物体の物理的特性を理解することの問題点について考察する。
変形性のような特殊な性質を持つ見えない物体を扱うことは、伝統的なタスクや運動計画アプローチでは、しばしばクローズドワールドの仮定を扱うため困難である。
近年のLarge Language Models (LLM) ベースのタスクプランニングの結果は、目に見えないオブジェクトを推論する能力を示している。
しかし、ほとんどの研究は剛体物体を仮定し、その物理的性質を見渡す。
課題計画のために,LLMを用いた非可視変形物体の物理的特性を探索する手法を提案する。
対象物の性質(例えば、折りたたみ性、曲げ性)に対して、本手法は、対象物と相互作用して特性を決定するためにロボットアクションを使用する。
LLMとロボットの動作によって調査された特性に基づいて、LLMはオブジェクトパッキングのような特定の領域のタスクプランを生成する。
提案手法は, 変形可能な物体の特性を同定し, その特性が重要な役割を担っているビン包装作業にさらに利用されることを示す。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Which objects help me to act effectively? Reasoning about physically-grounded affordances [0.6291443816903801]
この理解の重要な側面は、オブジェクトの余裕を検出することである。
提案手法は,大規模言語モデル (LLM) と視覚言語モデル (VLM) の対話を利用して,オープンワールドのアベイランス検出を実現する。
我々のシステムを物理的世界に接地することで、ロボットの体現と、遭遇する物体の本質的な性質を説明できる。
論文 参考訳(メタデータ) (2024-07-18T11:08:57Z) - Interactive Learning of Physical Object Properties Through Robot Manipulation and Database of Object Measurements [20.301193437161867]
このフレームワークは、テーブル上のオブジェクトに関する学習を最大化する探索的なアクション選択を含む。
ロボットパイプラインは、ロギングモジュールとオブジェクトのオンラインデータベースと統合されており、グリッパーが異なる63のオブジェクトの24,000以上の計測結果を含んでいる。
論文 参考訳(メタデータ) (2024-04-10T20:59:59Z) - Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics [5.497036643694402]
我々は、シンプルなシミュレーション環境を構築し、ゼロショット環境では、テキストとマルチモーダルLLMの両方が、様々なオブジェクトに関する原子世界の知識を示すが、オブジェクト操作と配置タスクのための正しいソリューションで、この知識を構成するのに失敗する例を示す。
また、より洗練されたクロスモーダルな注意で訓練された視覚言語モデルBLIPを使用して、そのモデルがグラウンドに失敗するオブジェクトの物理的特性に関連する事例を特定する。
論文 参考訳(メタデータ) (2024-02-24T00:01:01Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties
via Video Question Answering [50.61988087577871]
CRIPP-VQA(CRIPP-VQA)は、シーン内のオブジェクトの暗黙的な物理的特性を推論するための新しいビデオ質問応答データセットである。
CRIPP-VQAには、動作中の物体のビデオが含まれており、反事実的推論に関わる疑問が注がれている。
実験の結果,暗黙的特性に関する疑問に答える上で,驚くべき,重要なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2022-11-07T18:55:26Z) - O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance
Learning [24.9242853417825]
本稿では,様々なタスクに対するオブジェクト・オブジェクトのインタラクションを学習するための,統一的なアベイランス学習フレームワークを提案する。
我々は、人間のアノテーションやデモンストレーションを必要とせずに、大規模なオブジェクト・オブジェクト・アベイランス・ラーニングを行うことができる。
大規模合成データと実世界のデータを用いた実験により,提案手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-06-29T04:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。