論文の概要: Generalizable task-oriented object grasping through LLM-guided ontology and similarity-based planning
- arxiv url: http://arxiv.org/abs/2603.26412v1
- Date: Fri, 27 Mar 2026 13:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.521452
- Title: Generalizable task-oriented object grasping through LLM-guided ontology and similarity-based planning
- Title(参考訳): LLM誘導オントロジーと類似性に基づく計画による汎用的タスク指向オブジェクトの把握
- Authors: Hao Chen, Takuya Kiyokawa, Weiwei Wan, Kensuke Harada,
- Abstract要約: タスク指向グルーピング(TOG)は、オブジェクト部分の正確な識別と、効果的でロバストな操作を保証するために、グルーピング領域の慎重な選択を必要とするため、単純なオブジェクトグルーピングよりも難しい。
視覚認識のセマンティックな特徴に依存しない、より一般化可能なTOGのための、新しい幾何学中心の戦略を導入する。
実世界の実験を通して, 機能的部分選択, 識別, 把握生成におけるアプローチの高精度性を検証した。
- 参考スコア(独自算出の注目度): 16.214119457569534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Task-oriented grasping (TOG) is more challenging than simple object grasping because it requires precise identification of object parts and careful selection of grasping areas to ensure effective and robust manipulation. While recent approaches have trained large-scale vision-language models to integrate part-level object segmentation with task-aware grasp planning, their instability in part recognition and grasp inference limits their ability to generalize across diverse objects and tasks. To address this issue, we introduce a novel, geometry-centric strategy for more generalizable TOG that does not rely on semantic features from visual recognition, effectively overcoming the viewpoint sensitivity of model-based approaches. Our main proposals include: 1) an object-part-task ontology for functional part selection based on intuitive human commands, constructed using a Large Language Model (LLM); 2) a sampling-based geometric analysis method for identifying the selected object part from observed point clouds, incorporating multiple point distribution and distance metrics; and 3) a similarity matching framework for imitative grasp planning, utilizing similar known objects with pre-existing segmentation and grasping knowledge as references to guide the planning for unknown targets. We validate the high accuracy of our approach in functional part selection, identification, and grasp generation through real-world experiments. Additionally, we demonstrate the method's generalization capabilities to novel-category objects by extending existing ontological knowledge, showcasing its adaptability to a broad range of objects and tasks.
- Abstract(参考訳): タスク指向グルーピング(TOG)は、オブジェクト部分の正確な識別と、効果的でロバストな操作を保証するために、グルーピング領域を慎重に選択する必要があるため、単純なオブジェクトグルーピングよりも難しい。
近年のアプローチでは、大規模視覚言語モデルを訓練して、タスク対応の把握計画とパートレベルのオブジェクトセグメンテーションを統合する一方で、その部分認識と把握の不安定さは、多様なオブジェクトやタスクをまたいで一般化する能力を制限している。
この問題に対処するために,モデルベースアプローチの視点感度を効果的に克服し,視覚認識からの意味的特徴に依存しない,より一般化可能なTOGのための新しい幾何学的戦略を導入する。
主な提案は以下のとおりである。
1)Large Language Model(LLM)を用いて構築された直感的なヒューマンコマンドに基づく機能部分選択のためのオブジェクト指向オントロジー。
2 複数の点分布と距離指標を取り入れた、観測点雲から選択対象部分を特定するためのサンプリングに基づく幾何解析法
3) 擬似的把握計画のための類似性マッチング・フレームワーク, 既往のセグメンテーションと知識を参考にして, 未知の目標の計画の指針となる。
実世界の実験を通して, 機能的部分選択, 識別, 把握生成におけるアプローチの高精度性を検証した。
さらに,既存の存在論的知識を拡張し,幅広い対象やタスクへの適応性を示すことによって,新しいカテゴリーのオブジェクトへの一般化能力を示す。
関連論文リスト
- Oh-A-DINO: Understanding and Enhancing Attribute-Level Information in Self-Supervised Object-Centric Representations [9.949149600332836]
自己教師付き視覚モデルとスロットベース表現はエッジ由来の幾何学の同定に優れるが、幾何学的でない表面レベルの手がかりを保存できない。
VAE正則化はコンパクトで不整合なオブジェクト中心の表現を強制し、これらの欠落した属性を復元する。
論文 参考訳(メタデータ) (2025-03-12T21:57:41Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。
本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。
このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文 参考訳(メタデータ) (2024-03-26T19:26:53Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。