論文の概要: A Visual Navigation Perspective for Category-Level Object Pose
Estimation
- arxiv url: http://arxiv.org/abs/2203.13572v1
- Date: Fri, 25 Mar 2022 10:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 14:07:26.991871
- Title: A Visual Navigation Perspective for Category-Level Object Pose
Estimation
- Title(参考訳): カテゴリーレベルオブジェクトポス推定のための視覚的ナビゲーション
- Authors: Jiaxin Guo, Fangxun Zhong, Rong Xiong, Yunhui Liu, Yue Wang, Yiyi Liao
- Abstract要約: 本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
- 参考スコア(独自算出の注目度): 41.60364392204057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies category-level object pose estimation based on a single
monocular image. Recent advances in pose-aware generative models have paved the
way for addressing this challenging task using analysis-by-synthesis. The idea
is to sequentially update a set of latent variables, e.g., pose, shape, and
appearance, of the generative model until the generated image best agrees with
the observation. However, convergence and efficiency are two challenges of this
inference procedure. In this paper, we take a deeper look at the inference of
analysis-by-synthesis from the perspective of visual navigation, and
investigate what is a good navigation policy for this specific task. We
evaluate three different strategies, including gradient descent, reinforcement
learning and imitation learning, via thorough comparisons in terms of
convergence, robustness and efficiency. Moreover, we show that a simple hybrid
approach leads to an effective and efficient solution. We further compare these
strategies to state-of-the-art methods, and demonstrate superior performance on
synthetic and real-world datasets leveraging off-the-shelf pose-aware
generative models.
- Abstract(参考訳): 本稿では,単眼画像に基づくカテゴリーレベルの物体ポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
この考え方は、生成された画像が観察に最もよく一致するまで、生成モデルのポーズ、形状、外観などの潜伏変数の集合を逐次更新することである。
しかしながら、収束と効率性はこの推論手順の2つの課題である。
本稿では,視覚ナビゲーションの観点から解析・合成の推測をより深く見ていくとともに,このタスクに最適なナビゲーションポリシーは何であるかを検討する。
勾配降下,強化学習,模倣学習の3つの戦略を,収束性,堅牢性,効率性の観点から徹底した比較により評価した。
さらに,単純なハイブリッドアプローチが効率的かつ効率的なソリューションとなることを示す。
さらに,これらの戦略を最先端の手法と比較し,既成のポーズ認識生成モデルを活用した合成および実世界のデータセットにおいて優れた性能を示す。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - Deep Graph Contrastive Representation Learning [23.37786673825192]
ノードレベルでの対照的な目的を生かして,教師なしグラフ表現学習のための新しいフレームワークを提案する。
具体的には,この2つのビューにおけるノード表現の一致を最大化することにより,ノード表現の破損と学習によって2つのグラフビューを生成する。
我々は,様々な実世界のデータセットを用いて,帰納的および帰納的学習タスクの実証実験を行った。
論文 参考訳(メタデータ) (2020-06-07T11:50:45Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。