論文の概要: AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.01433v1
- Date: Wed, 01 Oct 2025 20:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.855895
- Title: AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation
- Title(参考訳): AFFORD2ACT:Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation
- Authors: Anukriti Singh, Kasra Torshizi, Khuzema Habib, Kelin Yu, Ruohan Gao, Pratap Tokekar,
- Abstract要約: AFFORD2ACTは、テキストプロンプトと単一画像から最小限の意味2Dキーポイントのセットを蒸留する、割当誘導フレームワークである。
データ効率を継続的に改善し、目に見えないオブジェクト、新しいカテゴリ、バックグラウンド、イントラクタで82%の成功率を達成する。
- 参考スコア(独自算出の注目度): 19.253841162440267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based robot learning often relies on dense image or point-cloud inputs, which are computationally heavy and entangle irrelevant background features. Existing keypoint-based approaches can focus on manipulation-centric features and be lightweight, but either depend on manual heuristics or task-coupled selection, limiting scalability and semantic understanding. To address this, we propose AFFORD2ACT, an affordance-guided framework that distills a minimal set of semantic 2D keypoints from a text prompt and a single image. AFFORD2ACT follows a three-stage pipeline: affordance filtering, category-level keypoint construction, and transformer-based policy learning with embedded gating to reason about the most relevant keypoints, yielding a compact 38-dimensional state policy that can be trained in 15 minutes, which performs well in real-time without proprioception or dense representations. Across diverse real-world manipulation tasks, AFFORD2ACT consistently improves data efficiency, achieving an 82% success rate on unseen objects, novel categories, backgrounds, and distractors.
- Abstract(参考訳): 視覚に基づくロボット学習は、しばしば高密度の画像やポイントクラウド入力に依存し、計算的に重く、無関係な背景特徴に絡み合っている。
既存のキーポイントベースのアプローチでは、操作中心の機能に集中して軽量化が可能ですが、手動のヒューリスティックやタスク結合の選択、スケーラビリティの制限、セマンティックな理解に依存します。
そこで本研究では,テキストプロンプトと単一画像から最小のセマンティック2Dキーポイントを抽出するアベイランス誘導フレームワークであるAFFORD2ACTを提案する。
AFFORD2ACTは3段階のパイプラインに従う: 余裕フィルタリング、カテゴリレベルのキーポイント構築、および最も関連するキーポイントを推論するために埋め込みゲーティングを用いたトランスフォーマーベースのポリシー学習。
AFFORD2ACTは、さまざまな現実世界の操作タスク全体にわたって、データ効率を継続的に改善し、目に見えないオブジェクト、新しいカテゴリ、バックグラウンド、イントラクタに対して82%の成功率を達成する。
関連論文リスト
- ContextFusion and Bootstrap: An Effective Approach to Improve Slot Attention-Based Object-Centric Learning [53.19029595226767]
スロットアテンションに基づくフレームワークは、オブジェクト指向学習における主要なアプローチとして登場した。
現在の手法では、スロットからの再構築を可能にするため、トレーニングを通して安定した特徴空間が必要である。
本稿では,既存のスロットアテンションモデルにシームレスに統合可能な新しいContextFusionステージとBootstrapブランチを提案する。
論文 参考訳(メタデータ) (2025-09-02T07:19:25Z) - Multi-Keypoint Affordance Representation for Functional Dexterous Grasping [26.961157077703756]
本稿では,機能的デキスタラスグルーピングのためのマルチキーポイントアプライアンス表現を提案する。
本手法は,機能的接触点の局在化により,タスク駆動型グリップ構成を符号化する。
提案手法は,手頃な局所化精度,一貫性の把握,未知のツールやタスクへの一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-02-27T11:54:53Z) - CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World [20.52894595103719]
CordViPは、オブジェクトのロバストな6Dポーズ推定とロボットのプロプリセプションを活用することで、通信を構築し、学習する新しいフレームワークである。
提案手法は,6つの実世界のタスクにおいて,最先端の性能を達成し,極めて巧妙な操作能力を示す。
論文 参考訳(メタデータ) (2025-02-12T14:41:14Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - VAPO: Visibility-Aware Keypoint Localization for Efficient 6DoF Object Pose Estimation [52.81869878956534]
2次元画像における3Dキーポイントの局所化は、インスタンスレベルの6DoFオブジェクトのポーズ推定のための3D-2D対応を確立する効果的な方法である。
本稿では、重要なキーポイントを可視性の観点からローカライズすることでこの問題に対処する。
我々は、可視性を考慮した重要度と最先端のポーズ推定アルゴリズムを統合することにより、VAPO(Visibility-Aware POse estimator)を構築する。
論文 参考訳(メタデータ) (2024-03-21T16:59:45Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。