論文の概要: Contrastively Learning Visual Attention as Affordance Cues from
Demonstrations for Robotic Grasping
- arxiv url: http://arxiv.org/abs/2104.00878v1
- Date: Fri, 2 Apr 2021 04:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:00:08.417058
- Title: Contrastively Learning Visual Attention as Affordance Cues from
Demonstrations for Robotic Grasping
- Title(参考訳): ロボットグラスピングの実証から視覚的注意を学習する
- Authors: Yantian Zha, Siddhant Bhambri and Lin Guan
- Abstract要約: 我々は、深層ニューラルネットワークに基づくエンドツーエンドの模倣学習フレームワークに、アプライアンス発見とアプライアンスに基づくポリシー学習を統合する。
本稿では,Siameseエンコーダとtrajectory decoderからなるコントラスト学習フレームワークを提案する。
実験結果から,3重項損失と組み合わせたモデルにより,シミュレーションロボット環境での把握成功率が最も高いことがわかった。
- 参考スコア(独自算出の注目度): 1.5727276506140881
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional works that learn grasping affordance from demonstrations need to
explicitly predict grasping configurations, such as gripper approaching angles
or grasping preshapes. Classic motion planners could then sample trajectories
by using such predicted configurations. In this work, our goal is instead to
fill the gap between affordance discovery and affordance-based policy learning
by integrating the two objectives in an end-to-end imitation learning framework
based on deep neural networks. From a psychological perspective, there is a
close association between attention and affordance. Therefore, with an
end-to-end neural network, we propose to learn affordance cues as visual
attention that serves as a useful indicating signal of how a demonstrator
accomplishes tasks, instead of explicitly modeling affordances. To achieve
this, we propose a contrastive learning framework that consists of a Siamese
encoder and a trajectory decoder. We further introduce a coupled triplet loss
to encourage the discovered affordance cues to be more affordance-relevant. Our
experimental results demonstrate that our model with the coupled triplet loss
achieves the highest grasping success rate in a simulated robot environment.
- Abstract(参考訳): 実演から手持ちを学習する従来の作業では、手持ちの角度に近づくグリッパーやプリフォームの把握など、手持ちの配置を明示的に予測する必要がある。
古典的なモーションプランナーは、そのような予測された構成を用いて軌道をサンプリングすることができる。
本研究の目的は、深層ニューラルネットワークに基づくエンドツーエンドの模倣学習フレームワークに2つの目的を統合することで、割当発見と割当ベースの政策学習のギャップを埋めることである。
心理的観点では、注意と余裕の間には密接な関係がある。
そこで,エンド・ツー・エンドのニューラルネットワークを用いて,デモントストラクタが課題をどのように達成するかを示す視覚的な注意として学習することを提案する。
そこで本研究では,シアームエンコーダと軌道デコーダからなるコントラスト学習フレームワークを提案する。
さらに、発見された余剰価格がより高額になるよう促すために、複合三重項損失を導入する。
実験結果から,3重項損失と組み合わせたモデルにより,シミュレーションロボット環境での把握成功率が最も高いことがわかった。
関連論文リスト
- Learning a Neural Association Network for Self-supervised Multi-Object Tracking [34.07776597698471]
本稿では,多目的追跡のためのデータアソシエーションを自己管理的に学習するための新しいフレームワークを提案する。
実世界のシナリオでは、オブジェクトの動きが通常マルコフプロセスで表現できるという事実により、我々は、トラッキングのための検出を関連付けるためにニューラルネットワークをトレーニングする新しい期待(EM)アルゴリズムを提案する。
我々は,挑戦的なMOT17とMOT20データセットに対するアプローチを評価し,自己教師付きトラッカーと比較して最先端の結果を得る。
論文 参考訳(メタデータ) (2024-11-18T12:22:29Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Analytically Tractable Hidden-States Inference in Bayesian Neural
Networks [0.0]
本稿では, ガウス推定能力(TAGI)を活用して隠れ状態の推測を行う方法を示す。
その新しい側面の一つは、特定の目的を達成するために設計された制約を付与することで隠れた状態を推論することである。
論文 参考訳(メタデータ) (2021-07-08T11:11:25Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。