論文の概要: Comparing Reconstruction- and Contrastive-based Models for Visual Task
Planning
- arxiv url: http://arxiv.org/abs/2109.06737v1
- Date: Tue, 14 Sep 2021 14:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:24:48.930248
- Title: Comparing Reconstruction- and Contrastive-based Models for Visual Task
Planning
- Title(参考訳): 視覚課題計画のための再構成モデルとコントラストモデルの比較
- Authors: Constantinos Chamzas, Martina Lippi, Michael C. Welle, Anastasia
Varava, Lydia E. Kavraki, Danica Kragic
- Abstract要約: 学習状態表現は、画像などの生の観察から直接ロボット計画を可能にする。
ほとんどの方法は、低次元潜在空間からの生観測の再構成に基づいて損失を利用して状態表現を学習する。
視覚的タスクプランニングにおいて、単純なコントラスト損失を伴うSameseネットワークのようなタスク前処理のモデルが、再構成に基づく表現よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 22.544573360342948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning state representations enables robotic planning directly from raw
observations such as images. Most methods learn state representations by
utilizing losses based on the reconstruction of the raw observations from a
lower-dimensional latent space. The similarity between observations in the
space of images is often assumed and used as a proxy for estimating similarity
between the underlying states of the system. However, observations commonly
contain task-irrelevant factors of variation which are nonetheless important
for reconstruction, such as varying lighting and different camera viewpoints.
In this work, we define relevant evaluation metrics and perform a thorough
study of different loss functions for state representation learning. We show
that models exploiting task priors, such as Siamese networks with a simple
contrastive loss, outperform reconstruction-based representations in visual
task planning.
- Abstract(参考訳): 学習状態表現は、画像などの生観察から直接ロボット計画を可能にする。
ほとんどの方法は、低次元潜在空間からの生観測の再構成に基づいて損失を利用して状態表現を学習する。
画像空間における観察間の類似性はしばしば仮定され、システムの基盤状態間の類似性を推定するためのプロキシとして使用される。
しかし、観察には、様々な照明や異なるカメラ視点など、再建に重要なタスク非関連要因が含まれている。
本研究では,関連する評価指標を定義し,状態表現学習のための損失関数を徹底的に検討する。
視覚的タスクプランニングにおいて、単純なコントラスト損失を伴うSameseネットワークのようなタスク前処理のモデルが再構成に基づく表現より優れていることを示す。
関連論文リスト
- Training objective drives the consistency of representational similarity across datasets [19.99817888941361]
プラトン表現仮説(Platonic Representation hypothesis)は、最近の基礎モデルは下流タスクのパフォーマンスの関数として共有表現空間に収束していると主張している。
そこで本研究では,モデル間の表現的類似性が,表現を構成するために使用される刺激の集合によってどのように変化するかを測定するための体系的手法を提案する。
目的関数はデータセット間の表現的類似性の一貫性を決定する上で最も重要な要素であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T13:35:45Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - ScatSimCLR: self-supervised contrastive learning with pretext task
regularization for small-scale datasets [5.2424255020469595]
データの複数ビュー間の対照的な損失に基づく小規模データセットに対する自己教師型学習の課題について考察する。
同じ分類精度を維持しつつ,システム全体のパラメータ数やビュー数を大幅に削減できると主張している。
論文 参考訳(メタデータ) (2021-08-31T15:58:45Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Evaluating Contrastive Models for Instance-based Image Retrieval [6.393147386784114]
画像検索タスクにおけるコントラストモデルの評価を行う。
対照的な手法を用いてトレーニングされたモデルは、ImageNetラベルに基づいてトレーニングされたトレーニング済みベースラインとオンパー(およびパフォーマンス)を実行する。
論文 参考訳(メタデータ) (2021-04-30T12:05:23Z) - Shared Prior Learning of Energy-Based Models for Image Reconstruction [69.72364451042922]
本研究では,地中真理データを含まないトレーニングに特化して設計された画像再構成のための新しい学習ベースフレームワークを提案する。
基底真理データがない場合には、損失関数をパッチベースのワッサーシュタイン関数に変更する。
共用事前学習では、上記の最適制御問題と正規化器の共用学習パラメータを同時に最適化する。
論文 参考訳(メタデータ) (2020-11-12T17:56:05Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - Adversarial Transfer of Pose Estimation Regression [11.117357750374035]
本研究では,シーン不変の画像表現を学習するための深層適応ネットワークを開発し,モデル転送のための表現を生成する。
我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。
論文 参考訳(メタデータ) (2020-06-20T21:16:37Z) - Structured and Localized Image Restoration [141.75042935077465]
本稿では,局所的構造予測と非線形マルチタスク学習のアイデアを活用した画像復元手法を提案する。
平均二乗およびユークリッド標準誤差に基づいて対応するエネルギーのアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-06-16T15:43:12Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。