論文の概要: PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2508.05976v1
- Date: Fri, 08 Aug 2025 03:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.057317
- Title: PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation
- Title(参考訳): PASG:ロボットマニピュレーションにおける幾何学的原始抽出と意味アンコリングの自動化のためのクローズドループフレームワーク
- Authors: Zhihao Zhu, Yifan Zheng, Siyu Pan, Yaohui Jin, Yao Mu,
- Abstract要約: 本稿では,タスク意味論と幾何学的特徴のギャップを埋めるために,Primitive-Aware Semantic Grounding (PASG)を提案する。
手動アノテーションに匹敵する性能を達成し,多様なシナリオにまたがる実用的なロボット操作タスクにおけるPASGの有効性を実証する。
- 参考スコア(独自算出の注目度): 14.311585896189506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fragmentation between high-level task semantics and low-level geometric features remains a persistent challenge in robotic manipulation. While vision-language models (VLMs) have shown promise in generating affordance-aware visual representations, the lack of semantic grounding in canonical spaces and reliance on manual annotations severely limit their ability to capture dynamic semantic-affordance relationships. To address these, we propose Primitive-Aware Semantic Grounding (PASG), a closed-loop framework that introduces: (1) Automatic primitive extraction through geometric feature aggregation, enabling cross-category detection of keypoints and axes; (2) VLM-driven semantic anchoring that dynamically couples geometric primitives with functional affordances and task-relevant description; (3) A spatial-semantic reasoning benchmark and a fine-tuned VLM (Qwen2.5VL-PA). We demonstrate PASG's effectiveness in practical robotic manipulation tasks across diverse scenarios, achieving performance comparable to manual annotations. PASG achieves a finer-grained semantic-affordance understanding of objects, establishing a unified paradigm for bridging geometric primitives with task semantics in robotic manipulation.
- Abstract(参考訳): 高レベルのタスクセマンティクスと低レベルの幾何学的特徴の断片化は、ロボット操作において永続的な課題である。
視覚言語モデル(VLM)は、可視性を考慮した視覚表現を生成することを約束しているが、標準空間における意味的基盤の欠如とマニュアルアノテーションへの依存は、ダイナミックな意味的・認識関係を捉える能力を著しく制限している。
そこで我々は,(1) 幾何的特徴集約による自動原始的抽出,(2) キーポイントと軸のクロスカテゴリ検出,(2) 機能的アベイランスとタスク関連記述を動的に結合するVLM駆動セマンティックアンカリング,(3) 空間意味推論ベンチマークと微調整VLM(Qwen2.5VL-PA)を導入して,これらの課題に対処する,閉ループフレームワークであるPrimitive-Aware Semantic Grounding(PASG)を提案する。
手動アノテーションに匹敵する性能を達成し,多様なシナリオにまたがる実用的なロボット操作タスクにおけるPASGの有効性を実証する。
PASGは、オブジェクトのよりきめ細かなセマンティック・アフォード理解を実現し、ロボット操作におけるタスクセマンティクスと幾何学的プリミティブをブリッジするための統一パラダイムを確立する。
関連論文リスト
- AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。
RoboTwinベンチマークの平均成功率は98.7%に達する。
論文 参考訳(メタデータ) (2025-06-24T03:03:26Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。
LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。
これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [49.858348469657784]
本稿では,自然言語を用いたオブジェクト指向を参照フレームフリーで定義するセマンティック・オリエンテーションの概念を紹介する。
セマンティック・オリエンテーションをVLMシステムに統合することにより、ロボットは位置制約と向き制約の両方で操作動作を生成できる。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting [46.677120329555486]
AutoOccはセマンティック占有アノテーションのためのビジョン中心の自動パイプラインである。
オープンエンドなセマンティックな3D占有の再構築タスクを定式化し、シーン占有を自動的に生成する。
我々のフレームワークは、人間のラベルを使わずに、既存の自動占有アノテーション手法より優れています。
論文 参考訳(メタデータ) (2025-02-07T14:58:59Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations [4.807052027638089]
スロット内のオブジェクトのセマンティクスを学習するニューラルスロットインタプリタ(NSI)を提案する。
バイモーダルなオブジェクトプロパティとシーン検索タスクによる実験は、NSIが学習した対応の基盤的有効性と解釈可能性を示す。
また、実世界のオブジェクト発見において、接地されたスロットが教師なしのスロットを超越し、シーンの複雑さとともにスケールすることが示される。
論文 参考訳(メタデータ) (2024-02-02T12:37:23Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。