論文の概要: Self-Supervised Learning of Action Affordances as Interaction Modes
- arxiv url: http://arxiv.org/abs/2305.17565v1
- Date: Sat, 27 May 2023 19:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:18:21.024859
- Title: Self-Supervised Learning of Action Affordances as Interaction Modes
- Title(参考訳): インタラクションモードとしての行動余裕の自己教師付き学習
- Authors: Liquan Wang, Nikita Dvornik, Rafael Dubeau, Mayank Mittal, Animesh
Garg
- Abstract要約: 本研究は,音声オブジェクトとの有用な相互作用の事前の教師なし学習に取り組む。
インタラクトモードを学習するために、シミュレータの奥行きセンサーへのアクセスのみを前提としています。
我々のモデルは、人間のインタラクションのほとんどのモードをカバーし、既存の手頃な学習方法よりも優れており、トレーニング中に見たことのないオブジェクトに一般化できることを示す。
- 参考スコア(独自算出の注目度): 25.16302650076381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When humans perform a task with an articulated object, they interact with the
object only in a handful of ways, while the space of all possible interactions
is nearly endless. This is because humans have prior knowledge about what
interactions are likely to be successful, i.e., to open a new door we first try
the handle. While learning such priors without supervision is easy for humans,
it is notoriously hard for machines. In this work, we tackle unsupervised
learning of priors of useful interactions with articulated objects, which we
call interaction modes. In contrast to the prior art, we use no supervision or
privileged information; we only assume access to the depth sensor in the
simulator to learn the interaction modes. More precisely, we define a
successful interaction as the one changing the visual environment substantially
and learn a generative model of such interactions, that can be conditioned on
the desired goal state of the object. In our experiments, we show that our
model covers most of the human interaction modes, outperforms existing
state-of-the-art methods for affordance learning, and can generalize to objects
never seen during training. Additionally, we show promising results in the
goal-conditional setup, where our model can be quickly fine-tuned to perform a
given task. We show in the experiments that such affordance learning predicts
interaction which covers most modes of interaction for the querying articulated
object and can be fine-tuned to a goal-conditional model. For supplementary:
https://actaim.github.io.
- Abstract(参考訳): 人間が明瞭なオブジェクトでタスクを実行するとき、それらはいくつかの方法でのみオブジェクトと対話しますが、すべての可能な相互作用の空間はほぼ無限です。
これは、人間がどのインタラクションが成功するか、すなわち、最初にハンドルを試す新しいドアを開くための事前知識を持っているためです。
人間にとってこのような前科を監督せずに学ぶことは簡単だが、機械にとっては非常に難しい。
本研究では,対話モードと呼ばれる,対話型オブジェクトとの有用なインタラクションの事前の教師なし学習に取り組む。
従来の技術とは対照的に、我々は監視や特権情報を使用しず、シミュレータ内の深度センサーにアクセスして相互作用モードを学習するのみである。
より正確には、良好なインタラクションを視覚環境を実質的に変えるものと定義し、オブジェクトの所望のゴール状態に基づいて条件づけ可能なそのようなインタラクションの生成モデルを学ぶ。
実験では,我々のモデルが人間のインタラクションモードの大部分をカバーし,既存の最先端学習手法を上回っており,トレーニング中に見ることのない物体に一般化できることを示した。
さらに,目標条件設定における有望な結果を示し,与えられたタスクを実行するために,我々のモデルを迅速に微調整することができる。
実験では,問合せ対象の対話モードのほとんどをカバーする対話を,目標条件モデルに微調整できるインタラクションを予測できることを示す。
追加情報: https://actaim.github.io。
関連論文リスト
- Controlling the World by Sleight of Hand [26.874176292105556]
我々は、物体と相互作用する人間の手のラベルなしビデオから学習することで、行動条件生成モデルを学ぶ。
画像と、所望のハンドインタラクションの形状/位置が与えられた場合、CosHandは、インタラクションが発生した後の未来のイメージを合成する。
実験により、結果のモデルが手動物体の相互作用の効果をよく予測できることが示されている。
論文 参考訳(メタデータ) (2024-08-13T18:33:45Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Coarse-to-Fine Imitation Learning: Robot Manipulation from a Single
Demonstration [8.57914821832517]
視覚的模倣学習のためのシンプルな新しい手法を導入し,新しいロボット操作タスクを1人の人間による実演から学習できるようにする。
提案手法は、状態推定問題として模倣学習をモデル化し、状態がエンドエフェクタのポーズとして定義される。
テスト時、エンドエフェクタは線形経路を通って推定状態に移動し、元のデモのエンドエフェクタ速度を単に再生する。
論文 参考訳(メタデータ) (2021-05-13T16:36:55Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z) - Visual Prediction of Priors for Articulated Object Interaction [37.759459329701194]
人間は先行体験を迅速かつ効率的に構築することができる。
大人は台所などの新しい空間に入る際にもこの行動を示す。
我々は、視覚を通して、類似したドメイン間の相互作用間で知識を伝達する手段を提供する、コンテキスト優先予測法を開発した。
論文 参考訳(メタデータ) (2020-06-06T21:17:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。