論文の概要: End-to-End Learning of Keypoint Representations for Continuous Control
from Images
- arxiv url: http://arxiv.org/abs/2106.07995v1
- Date: Tue, 15 Jun 2021 09:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:19:22.674898
- Title: End-to-End Learning of Keypoint Representations for Continuous Control
from Images
- Title(参考訳): 画像からの連続制御のためのキーポイント表現のエンドツーエンド学習
- Authors: Rinu Boney, Alexander Ilin, Juho Kannala
- Abstract要約: 教師なしの事前学習、デコーダ、追加の損失を必要とせずに、エンドツーエンドで効率的なキーポイント表現を学習できることが示される。
提案アーキテクチャは,ソフトアクター・クリティカルエージェントに直接座標を供給するキーポイント抽出器で構成されている。
- 参考スコア(独自算出の注目度): 84.8536730437934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many control problems that include vision, optimal controls can be
inferred from the location of the objects in the scene. This information can be
represented using keypoints, which is a list of spatial locations in the input
image. Previous works show that keypoint representations learned during
unsupervised pre-training using encoder-decoder architectures can provide good
features for control tasks. In this paper, we show that it is possible to learn
efficient keypoint representations end-to-end, without the need for
unsupervised pre-training, decoders, or additional losses. Our proposed
architecture consists of a differentiable keypoint extractor that feeds the
coordinates of the estimated keypoints directly to a soft actor-critic agent.
The proposed algorithm yields performance competitive to the state-of-the art
on DeepMind Control Suite tasks.
- Abstract(参考訳): 視覚を含む多くの制御問題では、シーン内のオブジェクトの位置から最適な制御を推測することができる。
この情報は入力画像内の空間的位置のリストであるキーポイントを使って表現することができる。
これまでの研究によると、エンコーダ-デコーダアーキテクチャを使用した教師なし事前トレーニングで学んだキーポイント表現は、制御タスクに優れた機能を提供する。
本稿では,教師なしの事前学習やデコーダ,あるいは追加の損失を必要とせずに,エンドツーエンドで効率的なキーポイント表現を学習できることを示す。
提案アーキテクチャは,推定キーポイントの座標を直接ソフトアクター批判エージェントに供給する,可変キーポイント抽出器で構成されている。
提案アルゴリズムはDeepMind Control Suiteタスクの最先端技術に競争力を与える。
関連論文リスト
- Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Weakly Supervised Keypoint Discovery [27.750244813890262]
画像レベルの監視を用いた2次元画像からのキーポイント発見手法を提案する。
本手法は,弱い教師付き学習アプローチに動機付けられ,画像レベルの監視を利用して識別部品を識別する。
本手法は,限られた監督シナリオにおけるキーポイント推定タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-28T01:26:53Z) - Accurate Grid Keypoint Learning for Efficient Video Prediction [87.71109421608232]
キーポイントベースのビデオ予測手法は、トレーニングやデプロイメントにおいて、かなりの計算資源を消費することができる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
提案手法は,計算資源の98%以上を節約しつつ,最先端のビデオ予測手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-28T05:04:30Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Semi-supervised Keypoint Localization [12.37129078618206]
キーポイントのヒートマップを同時に学習し、不変なキーポイント表現を半監督的に提示することを提案する。
提案手法は,ヒトおよび動物の身体ランドマークの定位に関するいくつかのベンチマークにおいて,従来の手法を著しく上回っている。
論文 参考訳(メタデータ) (2021-01-20T06:23:08Z) - Unsupervised Object Keypoint Learning using Local Spatial Predictability [10.862430265350804]
オブジェクトキーポイントに基づく表現学習のための新しいアプローチであるPermaKeyを提案する。
AtariにおけるPermaKeyの有効性を実証し、最も顕著なオブジェクト部分に対応するキーポイントを学習し、特定の視覚的障害に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2020-11-25T18:27:05Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z) - CoKe: Localized Contrastive Learning for Robust Keypoint Detection [24.167397429511915]
特徴空間における3種類の距離を最適化するためにキーポイントカーネルを選択することができることを示す。
我々は、教師付きコントラスト学習を含むフレームワーク内で、この最適化プロセスを定式化する。
CoKeは、すべてのキーポイントを論理的に共同で表現するアプローチと比較して、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T16:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。