論文の概要: Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames
- arxiv url: http://arxiv.org/abs/2410.12124v2
- Date: Sun, 31 Aug 2025 00:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.879375
- Title: Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames
- Title(参考訳): 10のデモから学ぶ: オリエントアフォーマンスフレームによる汎用的でサンプル効率のよい政策学習
- Authors: Krishan Rana, Jad Abou-Chakra, Sourav Garg, Robert Lee, Ian Reid, Niko Suenderhauf,
- Abstract要約: 既存の方法は、タスクのバリエーションをカバーするために、かなりの数のデモを必要とする。
我々は、状態空間と行動空間の構造化表現である指向性アプライアンスフレームを導入する。
この抽象化によって、独立に訓練されたサブ政治の構成的一般化が可能となることを示す。
本手法は実世界の3つのタスクにまたがって検証し,多段階多目的インタラクションを必要とする。
- 参考スコア(独自算出の注目度): 10.738838923944876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has unlocked the potential for robots to exhibit highly dexterous behaviours. However, it still struggles with long-horizon, multi-object tasks due to poor sample efficiency and limited generalisation. Existing methods require a substantial number of demonstrations to cover possible task variations, making them costly and often impractical for real-world deployment. We address this challenge by introducing oriented affordance frames, a structured representation for state and action spaces that improves spatial and intra-category generalisation and enables policies to be learned efficiently from only 10 demonstrations. More importantly, we show how this abstraction allows for compositional generalisation of independently trained sub-policies to solve long-horizon, multi-object tasks. To seamlessly transition between sub-policies, we introduce the notion of self-progress prediction, which we directly derive from the duration of the training demonstrations. We validate our method across three real-world tasks, each requiring multi-step, multi-object interactions. Despite the small dataset, our policies generalise robustly to unseen object appearances, geometries, and spatial arrangements, achieving high success rates without reliance on exhaustive training data. Video demonstration can be found on our project page: https://affordance-policy.github.io/.
- Abstract(参考訳): 模倣学習は、ロボットが非常に巧妙な行動を示す可能性を解き放った。
しかし、サンプル効率が悪く、一般化が限られているため、長い水平・多目的タスクに苦慮している。
既存の手法では、考えられるタスクのバリエーションをカバーするために、かなりの数のデモが必要です。
本研究では,空間的およびカテゴリー内一般化を向上し,わずか10のデモンストレーションから効率的にポリシーを学習できる状態空間と行動空間の構造化された表現である指向型アベイランスフレームを導入することで,この問題に対処する。
より重要なことは、この抽象化によって、独立に訓練されたサブポリスの合成一般化が、長期多目的タスクの解決にどのように役立つかを示すことである。
準政治間をシームレスに移行するために,我々は,訓練の実施期間から直接的に導かれる自己進行予測の概念を導入する。
本手法は実世界の3つのタスクにまたがって検証し,多段階多目的インタラクションを必要とする。
この小さなデータセットにもかかわらず、我々のポリシーは、未確認の物体の外観、ジオメトリー、空間配置をしっかりと一般化し、徹底的なトレーニングデータに頼らずに高い成功率を達成する。
ビデオデモはプロジェクトのページで見ることができる。
関連論文リスト
- Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [26.44450403993957]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。
いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。
本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T14:20:33Z) - RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation [52.14638923430338]
本稿では,タスクの重要段階においてロボットのポーズを捉えた割安条件の条件付けについて提案する。
RT-Affordanceという手法は階層モデルであり,まずタスク言語が与えられた割当計画を提案する。
RT-Affordanceが既存手法の性能を50%以上上回る新しいタスク群を示す。
論文 参考訳(メタデータ) (2024-11-05T01:02:51Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory
Sketches [74.300116260004]
一般化は、ロバストなロボット学習システムにとって最も重要なデシダータの1つである。
粗い軌道スケッチを用いたポリシー条件付け手法を提案する。
RT-Trajectoryは言語条件や目標条件よりも幅広いタスクを実行できることを示す。
論文 参考訳(メタデータ) (2023-11-03T15:31:51Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。