Fugu-MT 論文翻訳(概要): A Visual Navigation Perspective for Category-Level Object Pose Estimation

論文の概要: A Visual Navigation Perspective for Category-Level Object Pose Estimation

arxiv url: http://arxiv.org/abs/2203.13572v1
Date: Fri, 25 Mar 2022 10:57:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-28 14:07:26.991871
Title: A Visual Navigation Perspective for Category-Level Object Pose Estimation
Title（参考訳）: カテゴリーレベルオブジェクトポス推定のための視覚的ナビゲーション
Authors: Jiaxin Guo, Fangxun Zhong, Rong Xiong, Yunhui Liu, Yue Wang, Yiyi Liao
Abstract要約: 本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
参考スコア（独自算出の注目度）: 41.60364392204057
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies category-level object pose estimation based on a single monocular image. Recent advances in pose-aware generative models have paved the way for addressing this challenging task using analysis-by-synthesis. The idea is to sequentially update a set of latent variables, e.g., pose, shape, and appearance, of the generative model until the generated image best agrees with the observation. However, convergence and efficiency are two challenges of this inference procedure. In this paper, we take a deeper look at the inference of analysis-by-synthesis from the perspective of visual navigation, and investigate what is a good navigation policy for this specific task. We evaluate three different strategies, including gradient descent, reinforcement learning and imitation learning, via thorough comparisons in terms of convergence, robustness and efficiency. Moreover, we show that a simple hybrid approach leads to an effective and efficient solution. We further compare these strategies to state-of-the-art methods, and demonstrate superior performance on synthetic and real-world datasets leveraging off-the-shelf pose-aware generative models.
Abstract（参考訳）: 本稿では,単眼画像に基づくカテゴリーレベルの物体ポーズ推定について検討する。ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。この考え方は、生成された画像が観察に最もよく一致するまで、生成モデルのポーズ、形状、外観などの潜伏変数の集合を逐次更新することである。しかしながら、収束と効率性はこの推論手順の2つの課題である。本稿では,視覚ナビゲーションの観点から解析・合成の推測をより深く見ていくとともに,このタスクに最適なナビゲーションポリシーは何であるかを検討する。勾配降下,強化学習,模倣学習の3つの戦略を,収束性,堅牢性,効率性の観点から徹底した比較により評価した。さらに,単純なハイブリッドアプローチが効率的かつ効率的なソリューションとなることを示す。さらに,これらの戦略を最先端の手法と比較し,既成のポーズ認識生成モデルを活用した合成および実世界のデータセットにおいて優れた性能を示す。

関連論文リスト

Unsupervised Synthetic Image Attribution: Alignment and Disentanglement [55.853285140682665]
そこで我々は,アライメント・アンド・ディスタングルメント(Alignment and Disentanglement)という,シンプルで効果的な教師なしの手法を提案する。具体的には、コントラッシブな自己教師あり学習を用いて基本的な概念アライメントを実行することから始める。次に、Infomax損失による表現のゆがみを促進することにより、モデルの属性能力を高める。
論文参考訳（メタデータ） (2026-01-30T07:31:53Z)
Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文参考訳（メタデータ） (2025-02-25T14:04:22Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
Geometry-guided Cross-view Diffusion for One-to-many Cross-view Image Synthesis [48.945931374180795]
本稿では,対応する衛星画像から可視な地上画像を生成することを目的とした,クロスビュー合成のための新しいアプローチを提案する。これらの課題を衛星間(Sat2Grd)と地上間(Grd2Sat)合成と呼ぶ。
論文参考訳（メタデータ） (2024-12-04T13:47:51Z)
Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文参考訳（メタデータ） (2024-11-24T14:31:50Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)
CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文参考訳（メタデータ） (2022-11-18T18:18:53Z)
Robust Single Image Dehazing Based on Consistent and Contrast-Assisted Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。我々の手法は最先端のアプローチを大きく上回っている。
論文参考訳（メタデータ） (2022-03-29T08:11:04Z)
Fusing Local Similarities for Retrieval-based 3D Orientation Estimation of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文参考訳（メタデータ） (2022-03-16T08:53:00Z)
CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文参考訳（メタデータ） (2021-04-30T02:39:12Z)
Deep Graph Contrastive Representation Learning [23.37786673825192]
ノードレベルでの対照的な目的を生かして,教師なしグラフ表現学習のための新しいフレームワークを提案する。具体的には,この2つのビューにおけるノード表現の一致を最大化することにより,ノード表現の破損と学習によって2つのグラフビューを生成する。我々は,様々な実世界のデータセットを用いて,帰納的および帰納的学習タスクの実証実験を行った。
論文参考訳（メタデータ） (2020-06-07T11:50:45Z)
Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文参考訳（メタデータ） (2020-05-25T17:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。