論文の概要: FastPoseCNN: Real-Time Monocular Category-Level Pose and Size Estimation Framework
- arxiv url: http://arxiv.org/abs/2406.11063v1
- Date: Sun, 16 Jun 2024 20:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:13:27.034759
- Title: FastPoseCNN: Real-Time Monocular Category-Level Pose and Size Estimation Framework
- Title(参考訳): FastPoseCNN: リアルタイムな単分子カテゴリレベルポースとサイズ推定フレームワーク
- Authors: Eduardo Davalos, Mehran Aminian,
- Abstract要約: 2019年、CAMERAとREALという2つの新しいデータセットと共に、最初のカテゴリレベルのポーズとサイズ推定フレームワークが提案された。
我々のフレームワークは、異なるデコーダを用いて翻訳、回転、サイズ回帰問題を分離すると共に、効率的なResNet-FPNフレームワークを使用している。
提案手法の有効性を実証するために,精度と速度の観点から性能を十分に比較するための広範囲な試験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary focus of this paper is the development of a framework for pose and size estimation of unseen objects given a single RGB image - all in real-time. In 2019, the first category-level pose and size estimation framework was proposed alongside two novel datasets called CAMERA and REAL. However, current methodologies are restricted from practical use because of its long inference time (2-4 fps). Their approach's inference had significant delays because they used the computationally expensive MaskedRCNN framework and Umeyama algorithm. To optimize our method and yield real-time results, our framework uses the efficient ResNet-FPN framework alongside decoupling the translation, rotation, and size regression problem by using distinct decoders. Moreover, our methodology performs pose and size estimation in a global context - i.e., estimating the involved parameters of all captured objects in the image all at once. We perform extensive testing to fully compare the performance in terms of precision and speed to demonstrate the capability of our method.
- Abstract(参考訳): 本稿の主な焦点は、単一のRGB画像が与えられたオブジェクトのポーズとサイズをリアルタイムで推定するフレームワークの開発である。
2019年、CAMERAとREALという2つの新しいデータセットと共に、最初のカテゴリレベルのポーズとサイズ推定フレームワークが提案された。
しかし、現在の手法は、推論時間(2-4 fps)が長いため、実用上は制限されている。
彼らの手法の推論には、計算に高価なMaskedRCNNフレームワークと梅山アルゴリズムを使用したため、かなりの遅延があった。
提案手法を最適化し,リアルタイムに結果を得るために,異なるデコーダを用いて翻訳,回転,サイズ回帰問題を分離すると共に,効率的なResNet-FPNフレームワークを使用する。
さらに、この手法は、グローバルな文脈におけるポーズとサイズの推定、すなわち、画像中のすべてのキャプチャーオブジェクトの関連するパラメータを一度に推定する。
提案手法の有効性を実証するために,精度と速度の観点から性能を十分に比較するための広範囲な試験を行った。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Embracing Compact and Robust Architectures for Multi-Exposure Image
Fusion [50.598654017728045]
本稿では,堅牢なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを含む探索型パラダイムを提案する。
シーンリライティングと変形可能な畳み込みを利用して、カメラの動きに拘わらず、画像を正確に調整することができる。
我々は、様々な競争方式と比較して最先端の性能を実現し、一般的なシナリオと不整合シナリオに対するPSNRの4.02%と29.34%の改善を実現した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins
Objective [0.6193838300896449]
本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。
提案フレームワークでは,並列ブランチの訓練に生成手法を用いて,シーンイメージを異なる領域に拡張する。
その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2022-11-20T12:18:53Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - VideoPose: Estimating 6D object pose from videos [14.210010379733017]
我々は、畳み込みニューラルネットワークを用いて、ビデオから直接オブジェクトのポーズを推定する、単純だが効果的なアルゴリズムを導入する。
提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、リカレントニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。
YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:57:45Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。