論文の概要: Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts
- arxiv url: http://arxiv.org/abs/2503.23348v1
- Date: Sun, 30 Mar 2025 08:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.071882
- Title: Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts
- Title(参考訳): 解析的概念を用いた人工物体操作のための物理場共通感覚知識
- Authors: Jianhua Sun, Jiude Wei, Yuxuan Li, Cewu Lu,
- Abstract要約: 本稿では,機械が直接計算し,シミュレートできる数学的記号に基づいて手続き的に定義された解析概念を紹介する。
我々は、物体の構造や機能に関する知識を物理情報表現で把握し、その知識を用いてロボット制御ポリシーを指示することができる。
- 参考スコア(独自算出の注目度): 48.16515416987306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We human rely on a wide range of commonsense knowledge to interact with an extensive number and categories of objects in the physical world. Likewise, such commonsense knowledge is also crucial for robots to successfully develop generalized object manipulation skills. While recent advancements in Large Language Models (LLM) have showcased their impressive capabilities in acquiring commonsense knowledge and conducting commonsense reasoning, effectively grounding this semantic-level knowledge produced by LLMs to the physical world to thoroughly guide robots in generalized articulated object manipulation remains a challenge that has not been sufficiently addressed. To this end, we introduce analytic concepts, procedurally defined upon mathematical symbolism that can be directly computed and simulated by machines. By leveraging the analytic concepts as a bridge between the semantic-level knowledge inferred by LLMs and the physical world where real robots operate, we are able to figure out the knowledge of object structure and functionality with physics-informed representations, and then use the physically grounded knowledge to instruct robot control policies for generalized, interpretable and accurate articulated object manipulation. Extensive experiments in both simulation and real-world environments demonstrate the superiority of our approach.
- Abstract(参考訳): 私たち人間は、物理的な世界のオブジェクトの幅広い数とカテゴリと相互作用するために、幅広いコモンセンス知識に依存しています。
同様に、そのような常識知識は、ロボットが一般化されたオブジェクト操作スキルをうまく開発する上でも不可欠である。
近年のLLM(Large Language Models)の進歩は、コモンセンス知識の獲得とコモンセンス推論の実施において、目覚ましい能力を示してきたが、LLMが生み出したこの意味レベルの知識を物理的世界に効果的に根ざし、一般化された音声オブジェクト操作においてロボットを徹底的に導くことは、十分に対処されていない課題である。
この目的のために,機械で直接計算・シミュレーションできる数学的記号に基づいて手続き的に定義された解析的概念を導入する。
LLMが推定する意味レベルの知識と実ロボットの動作する物理世界との間の橋渡しとして解析的概念を活用することで、物体の構造や機能に関する知識を物理インフォームド表現で把握し、その物理的基礎を持つ知識を用いて、一般化された、解釈可能な、正確なオブジェクト操作のためのロボット制御ポリシーを指示することができる。
シミュレーションと実環境の両方における大規模な実験は、我々のアプローチの優位性を実証している。
関連論文リスト
- Digital Gene: Learning about the Physical World through Analytic Concepts [54.21005370169846]
AIシステムは、物理的な世界を理解し、相互作用することに関して、依然として苦戦している。
本研究は分析概念の考え方を紹介する。
マシンインテリジェンスは、物理的な世界を理解し、推論し、相互作用するためのポータルを提供する。
論文 参考訳(メタデータ) (2025-04-05T13:22:11Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - Discovering Conceptual Knowledge with Analytic Ontology Templates for Articulated Objects [42.9186628100765]
我々は,概念レベルでの動作を通じて,機械知能に類似の能力を持たせることを目指している。
AOT駆動のアプローチは、3つの重要な観点で利益をもたらす。
論文 参考訳(メタデータ) (2024-09-18T04:53:38Z) - Human-Object Interaction from Human-Level Instructions [17.10279738828331]
本研究では、コンテキスト環境におけるオブジェクト操作のための人間とオブジェクトの相互作用を合成する最初の完全システムを提案する。
我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。
従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。
論文 参考訳(メタデータ) (2024-06-25T17:46:28Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Penetrative AI: Making LLMs Comprehend the Physical World [3.0266193917041306]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示しています。
本稿は,IoTセンサとアクチュエータを用いて,LLMを物理的世界と相互作用し,推論するために拡張する方法について検討する。
論文 参考訳(メタデータ) (2023-10-14T15:48:15Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - Fit to Measure: Reasoning about Sizes for Robust Object Recognition [0.5352699766206808]
本稿では,MLに基づくアーキテクチャにおいて,オブジェクトサイズに関する知識を統合するアプローチを提案する。
実世界のロボットシナリオにおける我々の実験は、この組み合わせによって、最先端の機械学習手法よりも大きなパフォーマンス向上が期待できることを示している。
論文 参考訳(メタデータ) (2020-10-27T13:54:37Z) - A Review on Intelligent Object Perception Methods Combining
Knowledge-based Reasoning and Machine Learning [60.335974351919816]
物体知覚はコンピュータビジョンの基本的なサブフィールドである。
最近の研究は、物体の視覚的解釈のインテリジェンスレベルを拡大するために、知識工学を統合する方法を模索している。
論文 参考訳(メタデータ) (2019-12-26T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。