論文の概要: Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images
- arxiv url: http://arxiv.org/abs/2406.12441v1
- Date: Tue, 18 Jun 2024 09:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:37:07.973045
- Title: Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images
- Title(参考訳): 周期対応損失:ラベル付きRGB画像と非順序付きRGB画像から高密度視点不変の視覚特徴を学習する
- Authors: David B. Adrian, Andras Gabor Kupcsik, Markus Spies, Heiko Neumann,
- Abstract要約: 本稿では、ビュー不変な高密度記述子学習のためのCCL(Cycle-Cor correspondingence Loss)を紹介する。
鍵となるアイデアは、新しい画像に対する予測を使って、有効なピクセル対応を自律的に検出することである。
評価の結果、他の自己教師付きRGB専用手法よりも優れており、教師付き手法の性能にアプローチしていることがわかった。
- 参考スコア(独自算出の注目度): 8.789674502390378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot manipulation relying on learned object-centric descriptors became popular in recent years. Visual descriptors can easily describe manipulation task objectives, they can be learned efficiently using self-supervision, and they can encode actuated and even non-rigid objects. However, learning robust, view-invariant keypoints in a self-supervised approach requires a meticulous data collection approach involving precise calibration and expert supervision. In this paper we introduce Cycle-Correspondence Loss (CCL) for view-invariant dense descriptor learning, which adopts the concept of cycle-consistency, enabling a simple data collection pipeline and training on unpaired RGB camera views. The key idea is to autonomously detect valid pixel correspondences by attempting to use a prediction over a new image to predict the original pixel in the original image, while scaling error terms based on the estimated confidence. Our evaluation shows that we outperform other self-supervised RGB-only methods, and approach performance of supervised methods, both with respect to keypoint tracking as well as for a robot grasping downstream task.
- Abstract(参考訳): 近年,学習対象中心の記述子に依存したロボット操作が普及している。
ビジュアルディスクリプタは、操作タスクの目的を簡単に記述でき、セルフスーパービジョンを使って効率的に学習でき、アクティベートされたオブジェクトや非厳密なオブジェクトもエンコードできる。
しかし、自己監督的なアプローチで堅牢でビュー不変なキーポイントを学習するには、正確な校正と専門家の監督を含む巧妙なデータ収集アプローチが必要である。
本稿では、ビュー不変な高密度記述子学習のためのCCL(Cycle-Cor correspondingence Loss)を導入し、サイクル一貫性の概念を導入し、単純なデータ収集パイプラインと未実装のRGBカメラビューのトレーニングを可能にする。
鍵となる考え方は、推定された信頼度に基づいて誤差項をスケーリングしながら、新しい画像に対する予測を用いて元の画像の画素を予測することによって、有効画素対応を自律的に検出することである。
評価の結果,他のRGB専用手法よりも優れており,キーポイントトラッキングや下流タスクをロボットが把握する上でも,教師付き手法の性能が向上していることが示唆された。
関連論文リスト
- With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Self-Supervised Equivariant Learning for Oriented Keypoint Detection [35.94215211409985]
我々は、回転同変CNNを用いた自己教師付き学習フレームワークを導入し、ロバスト指向キーポイントの検出を学習する。
ヒストグラムに基づく配向マップのトレーニングのために,合成変換により生成した画像対による高密度配向損失を提案する。
提案手法は,画像マッチングベンチマークとカメラポーズ推定ベンチマークにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T02:26:07Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - Grasp-type Recognition Leveraging Object Affordance [7.227058013536165]
ロボット教育における鍵となる課題は、単一のRGB画像とターゲットオブジェクト名を持つグリップ型認識である。
本稿では,各対象に対して事前の把握型分布を活用することで,学習に基づく認識を向上させるための,シンプルで効果的なパイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-26T08:40:27Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。