論文の概要: GLOVER++: Unleashing the Potential of Affordance Learning from Human Behaviors for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.11865v1
- Date: Sat, 17 May 2025 06:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.903969
- Title: GLOVER++: Unleashing the Potential of Affordance Learning from Human Behaviors for Robotic Manipulation
- Title(参考訳): GLOVER++:ロボットマニピュレーションのための人間の行動から順応学習の可能性
- Authors: Teli Ma, Jia Zheng, Zifan Wang, Ziyao Gao, Jiaming Zhou, Junwei Liang,
- Abstract要約: 我々は,1,726のオブジェクトカテゴリにわたる50,000の画像と675のアクションからなる大規模,手頃なアノテートデータセットであるHOVA-500Kを紹介した。
GLOVER++は,人間の実演から下流のオープン語彙推論タスクへ行動可能なアベイランス知識を効果的に伝達するグローバル・ローカル・アベイランス・トレーニング・フレームワークである。
- 参考スコア(独自算出の注目度): 15.083622210077966
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning manipulation skills from human demonstration videos offers a promising path toward generalizable and interpretable robotic intelligence-particularly through the lens of actionable affordances. However, transferring such knowledge remains challenging due to: 1) a lack of large-scale datasets with precise affordance annotations, and 2) insufficient exploration of affordances in diverse manipulation contexts. To address these gaps, we introduce HOVA-500K, a large-scale, affordance-annotated dataset comprising 500,000 images across 1,726 object categories and 675 actions. We also release a standardized benchmarking suite for multi-modal affordance reasoning. Built upon HOVA-500K, we present GLOVER++, a global-to-local affordance training framework that effectively transfers actionable affordance knowledge from human demonstrations to downstream open-vocabulary reasoning tasks. GLOVER++ achieves state-of-the-art results on the HOVA-500K benchmark and demonstrates strong generalization across diverse downstream robotic manipulation tasks. By explicitly modeling actionable affordances, GLOVER++ facilitates robust transfer across scenes, modalities, and tasks. We hope that HOVA-500K and the GLOVER++ framework will serve as valuable resources for bridging the gap between human demonstrations and robotic manipulation capabilities.
- Abstract(参考訳): 人間のデモビデオから学ぶ操作スキルは、汎用的で解釈可能なロボットインテリジェンスへ、特にアクション可能な価格のレンズを通して、有望な道のりを提供する。
しかし、このような知識の移譲は依然として困難である。
1)精度のよい注釈付き大規模データセットの欠如
2)多様な操作の文脈における余裕の探究が不十分である。
HOVA-500Kは1,726のオブジェクトカテゴリにわたる50,000のイメージと675のアクションからなる,大規模で手頃なアノテートデータセットである。
また、マルチモーダルな価格推論のための標準化されたベンチマークスイートもリリースしました。
HOVA-500Kをベースとして構築されたGLOVER++は,人間の実演から下流のオープン語彙推論タスクへ行動可能なアベイランス知識を効果的に伝達するグローバル・ローカル・アベイランストレーニングフレームワークである。
GLOVER++はHOVA-500Kベンチマークで最先端の結果を達成し、さまざまな下流ロボット操作タスクにまたがる強力な一般化を示す。
アクション可能な価格を明示的にモデル化することで、GLOVER++はシーン、モダリティ、タスク間の堅牢な転送を容易にする。
HOVA-500KとGLOVER++フレームワークが、人間のデモとロボット操作のギャップを埋めるための貴重なリソースになることを期待しています。
関連論文リスト
- UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。