Fugu-MT 論文翻訳(概要): Occlusion-Robust Object Pose Estimation with Holistic Representation

論文の概要: Occlusion-Robust Object Pose Estimation with Holistic Representation

arxiv url: http://arxiv.org/abs/2110.11636v1
Date: Fri, 22 Oct 2021 08:00:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-25 14:29:39.121656
Title: Occlusion-Robust Object Pose Estimation with Holistic Representation
Title（参考訳）: 立体表現を用いたオクルージョン・ロバストオブジェクト・ポース推定
Authors: Bo Chen, Tat-Jun Chin, Marius Klimavicius
Abstract要約: State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
参考スコア（独自算出の注目度）: 42.27081423489484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Practical object pose estimation demands robustness against occlusions to the target object. State-of-the-art (SOTA) object pose estimators take a two-stage approach, where the first stage predicts 2D landmarks using a deep network and the second stage solves for 6DOF pose from 2D-3D correspondences. Albeit widely adopted, such two-stage approaches could suffer from novel occlusions when generalising and weak landmark coherence due to disrupted features. To address these issues, we develop a novel occlude-and-blackout batch augmentation technique to learn occlusion-robust deep features, and a multi-precision supervision architecture to encourage holistic pose representation learning for accurate and coherent landmark predictions. We perform careful ablation tests to verify the impact of our innovations and compare our method to SOTA pose estimators. Without the need of any post-processing or refinement, our method exhibits superior performance on the LINEMOD dataset. On the YCB-Video dataset our method outperforms all non-refinement methods in terms of the ADD(-S) metric. We also demonstrate the high data-efficiency of our method. Our code is available at http://github.com/BoChenYS/ROPE
Abstract（参考訳）: 実用的物体ポーズ推定は、対象物体に対する咬合に対するロバスト性を要求する。 State-of-the-art(SOTA)オブジェクトのポーズ推定は2段階のアプローチを採り、第1段階はディープネットワークを用いて2Dランドマークを予測し、第2段階は2D-3D対応から6DOFのポーズを解く。広く採用されているが、このような2段階のアプローチは、一般化する際に新たな閉塞や、破壊的な特徴によるランドマークの一貫性の弱さに苦しむ可能性がある。これらの問題に対処するために,オクルージョンロバスト深層特徴を学習するための新しいオクルード・アンド・ブラックアウトバッチ拡張手法と,高精度かつコヒーレントなランドマーク予測のための総合的なポーズ表現学習を促すマルチプレシジョン監督アーキテクチャを開発した。我々は,我々のイノベーションが与える影響を検証するために注意深いアブレーションテストを行い,本手法をsomaポーズ推定器と比較する。後処理や改良を一切必要とせずに,本手法はLINEMODデータセットに優れた性能を示す。 YCB-Videoデータセットでは、この手法はADD(-S)メトリックで全ての非精製手法より優れています。また,本手法の高データ効率性を示す。私たちのコードはhttp://github.com/BoChenYS/ROPEで利用可能です。

関連論文リスト

Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。 DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-06-12T15:30:47Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文参考訳（メタデータ） (2024-08-21T12:13:18Z)
SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。 SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文参考訳（メタデータ） (2024-07-07T06:52:51Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
OriCon3D: Effective 3D Object Detection using Orientation and Confidence [0.0]
1つの画像から3次元物体を検出するための高度な手法を提案する。我々は、深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを用いる。提案手法は, 3次元オブジェクトのポーズ決定の精度を大幅に向上し, ベースライン法を超越した。
論文参考訳（メタデータ） (2023-04-27T19:52:47Z)
SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文参考訳（メタデータ） (2023-04-10T11:10:42Z)
Object Class Aware Video Anomaly Detection through Image Translation [1.2944868613449219]
本稿では、画像翻訳タスクを通して正常な外見と動きパターンを学習する2ストリームオブジェクト認識型VAD手法を提案する。その結果,従来の手法の大幅な改善により,本手法による検出は完全に説明可能となり,異常はフレーム内で正確に局所化されることがわかった。
論文参考訳（メタデータ） (2022-05-03T18:04:27Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)
SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文参考訳（メタデータ） (2019-12-26T08:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。