論文の概要: Task-Aware Bimanual Affordance Prediction via VLM-Guided Semantic-Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2604.08726v1
- Date: Thu, 09 Apr 2026 19:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.559479
- Title: Task-Aware Bimanual Affordance Prediction via VLM-Guided Semantic-Geometric Reasoning
- Title(参考訳): VLM-Guided Semantic-Geometric Reasoningによるタスク認識バイマンアフォーマンス予測
- Authors: Fabian Hahne, Vignesh Prasad, Georgia Chalvatzaki, Jan Peters, Alap Kshirsagar,
- Abstract要約: 双方向操作は、オブジェクトとどこで相互作用し、どのアームがそれぞれのアクションを実行するべきかを推論する必要がある。
既存のアプローチでは、余剰予測を粗い部分のセグメンテーションとして扱うか、または腕の割り当てに幾何学に依存している。
本稿では,タスク対応型バイマニュアルアプライアンス予測のための階層的枠組みを提案する。
- 参考スコア(独自算出の注目度): 22.1291953459429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual manipulation requires reasoning about where to interact with an object and which arm should perform each action, a joint affordance localization and arm allocation problem that geometry-only planners cannot resolve without semantic understanding of task intent. Existing approaches either treat affordance prediction as coarse part segmentation or rely on geometric heuristics for arm assignment, failing to jointly reason about task-relevant contact regions and arm allocation. We reframe bimanual manipulation as a joint affordance localization and arm allocation problem and propose a hierarchical framework for task-aware bimanual affordance prediction that leverages a Vision-Language Model (VLM) to generalize across object categories and task descriptions without requiring category-specific training. Our approach fuses multi-view RGB-D observations into a consistent 3D scene representation and generates global 6-DoF grasp candidates, which are then spatially and semantically filtered by querying the VLM for task-relevant affordance regions on each object, as well as for arm allocation to the individual objects, thereby ensuring geometric validity while respecting task semantics. We evaluate our method on a dual-arm platform across nine real-world manipulation tasks spanning four categories: parallel manipulation, coordinated stabilization, tool use, and human handover. Our approach achieves consistently higher task success rates than geometric and semantic baselines for task-oriented grasping, demonstrating that explicit semantic reasoning over affordances and arm allocation helps enable reliable bimanual manipulation in unstructured environments.
- Abstract(参考訳): 双方向操作は、どのアームがどのアクションを実行するべきか、どのアームがそれぞれのアクションを実行するべきか、幾何学のみのプランナーがタスク意図のセマンティックな理解なしには解決できないような共同余剰のローカライゼーションとアームアロケーションの問題など、推論を必要とする。
既存のアプローチでは、余剰予測を粗い部分分割として扱うか、またはアーム割り当てに幾何学的ヒューリスティックに依存し、タスク関連接触領域とアーム割り当てについて共同で推論することができない。
本研究では,視覚言語モデル(VLM)を活用して,カテゴリ固有の訓練を必要とせず,対象カテゴリやタスク記述を一般化するタスク認識型バイマニュアルアプライアンス予測のための階層的フレームワークを提案する。
提案手法は,多視点RGB-D観測を一貫した3次元シーン表現に融合し,グローバルな6-DoF把握候補を生成する。
並列操作,コーディネート安定化,ツール使用,ヒューマンハンドオーバの4つのカテゴリにまたがる実世界の操作タスクの両腕プラットフォーム上で,本手法の評価を行った。
提案手法は,タスク指向の把握のための幾何学的・意味的ベースラインよりもタスク成功率を一貫して向上させ,アベイランスとアームアロケーションに対する明示的な意味的推論が,非構造化環境における信頼性の高いバイマニュアル操作を可能にすることを実証する。
関連論文リスト
- BiPreManip: Learning Affordance-Based Bimanual Preparatory Manipulation through Anticipatory Collaboration [35.18224449308742]
コラボレーティブ・プレパレーション・マニピュレーション(Collaborative Preparatory Manipulation)は、オブジェクトのセマンティクスと幾何学を理解することを要求する双方向操作タスクのクラスである。
そこで我々は,まず最終目標指向アクションを想定し,一方の腕を誘導して準備操作を行う視覚的アベイランスに基づくフレームワークを提案する。
この余剰中心の表現は、予想される武器間推論と調整を可能にし、様々な対象に対して効果的に一般化する。
論文 参考訳(メタデータ) (2026-03-23T08:12:24Z) - AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis [50.793806818677716]
AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。
AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。
AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-09T06:56:35Z) - RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation [35.68205801897266]
RoboPCAはポーズ中心の価格予測フレームワークで、タスクに適した接触領域を共同で予測し、指示に応じてポーズを付ける。
Human2Affordは、シーンレベルの3D情報を自動的に復元し、人間のデモからポーズ中心の価格アノテーションを推論するデータキュレーションパイプラインである。
RoboPCAは、イメージデータセット、シミュレーション、実際のロボットのベースライン手法よりも優れており、タスクやカテゴリをまたいだ強力な一般化を示している。
論文 参考訳(メタデータ) (2026-03-08T15:46:04Z) - Scene-agnostic Hierarchical Bimanual Task Planning via Visual Affordance Reasoning [5.296623863894165]
オープン環境で動作しているエージェントは、ハイレベルな命令を基底的で実行可能な動作に変換する必要がある。
本稿では,高次推論を3次元2次元実行でブリッジする,シーン非依存の双方向タスク計画のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-10T04:37:07Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation [14.311585896189506]
本稿では,タスク意味論と幾何学的特徴のギャップを埋めるために,Primitive-Aware Semantic Grounding (PASG)を提案する。
手動アノテーションに匹敵する性能を達成し,多様なシナリオにまたがる実用的なロボット操作タスクにおけるPASGの有効性を実証する。
論文 参考訳(メタデータ) (2025-08-08T03:23:33Z) - Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control [22.74768543283102]
Graph-Fused Vision-Language-Action (GF-VLA)は、デュアルアームロボットシステムがタスクレベルの推論と実行を可能にするフレームワークである。
GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最も高いタスク関連性を持つ手や物体を識別する。
クロスハンド選択ポリシーは、明示的な幾何学的推論なしで最適な割り当てを推測する。
論文 参考訳(メタデータ) (2025-08-07T12:48:09Z) - Object Affordance Recognition and Grounding via Multi-scale Cross-modal Representation Learning [64.32618490065117]
Embodied AIの中核的な問題は、人間がしているように、観察からオブジェクト操作を学ぶことだ。
本稿では,3D表現の可利用性を学習し,段階的推論戦略を採用する新しい手法を提案する。
提案手法の有効性を実証し,アベイランスグラウンドと分類の両面での性能向上を示した。
論文 参考訳(メタデータ) (2025-08-02T04:14:18Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics [55.85916671269219]
本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。
包括的データセットは、2936の現実世界のスキャンされた剛体オブジェクトと100の明瞭なオブジェクトに対して、幾何学的に一貫性があり、操作指向の6Dポーズラベルを備えている。
本ベンチマークは,ポーズ推定,ポーズ認識操作,実ロボットのスキル伝達における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T07:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。