論文の概要: Joint Learning of Pose Regression and Denoising Diffusion with Score Scaling Sampling for Category-level 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2510.04125v1
- Date: Sun, 05 Oct 2025 09:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.470476
- Title: Joint Learning of Pose Regression and Denoising Diffusion with Score Scaling Sampling for Category-level 6D Pose Estimation
- Title(参考訳): カテゴリーレベルの6次元ポッド推定のためのスコアスケーリングサンプリングによるポッド回帰とデノイング拡散の連成学習
- Authors: Seunghyun Lee, Tae-Kyun Kim,
- Abstract要約: カテゴリレベルの6次元オブジェクトのポーズ推定のための新しいパイプラインを提案する。
提案手法は, 直接ポーズ回帰ヘッドを用いてエンコーダを事前訓練し, 回帰ヘッドとデノナイジング拡散ヘッドを介してネットワークを共同学習する。
サンプリングガイダンスは、最終段階における高品質なポーズ生成を確保しつつ、初期復調段階における対称物体のマルチモーダル特性を維持する。
- 参考スコア(独自算出の注目度): 19.996312940214363
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Latest diffusion models have shown promising results in category-level 6D object pose estimation by modeling the conditional pose distribution with depth image input. The existing methods, however, suffer from slow convergence during training, learning its encoder with the diffusion denoising network in end-to-end fashion, and require an additional network that evaluates sampled pose hypotheses to filter out low-quality pose candidates. In this paper, we propose a novel pipeline that tackles these limitations by two key components. First, the proposed method pretrains the encoder with the direct pose regression head, and jointly learns the networks via the regression head and the denoising diffusion head, significantly accelerating training convergence while achieving higher accuracy. Second, sampling guidance via time-dependent score scaling is proposed s.t. the exploration-exploitation trade-off is effectively taken, eliminating the need for the additional evaluation network. The sampling guidance maintains multi-modal characteristics of symmetric objects at early denoising steps while ensuring high-quality pose generation at final steps. Extensive experiments on multiple benchmarks including REAL275, HouseCat6D, and ROPE, demonstrate that the proposed method, simple yet effective, achieves state-of-the-art accuracies even with single-pose inference, while being more efficient in both training and inference.
- Abstract(参考訳): 最新の拡散モデルでは、深度画像入力による条件付きポーズ分布をモデル化し、カテゴリレベルの6次元オブジェクトのポーズ推定に有望な結果を示している。
しかし、既存の手法は訓練中に緩やかな収束に悩まされ、エンコーダを拡散復調ネットワークでエンドツーエンドで学習し、低品質ポーズ候補をフィルタリングするためにサンプルポーズ仮説を評価する追加のネットワークが必要である。
本稿では,これらの制約を2つのキーコンポーネントで処理する新しいパイプラインを提案する。
まず、提案手法は、直接ポーズ回帰ヘッドを用いてエンコーダを事前訓練し、回帰ヘッドと復調拡散ヘッドを介してネットワークを共同学習し、高い精度でトレーニング収束を著しく加速する。
第2に、時間依存スコアスケーリングによるサンプリングガイダンスを提案し、探索・探索トレードオフを効果的に取り、追加評価ネットワークの必要性を排除した。
サンプリングガイダンスは、最終段階における高品質なポーズ生成を確保しつつ、初期復調段階における対称物体のマルチモーダル特性を維持する。
REAL275, HouseCat6D, ROPE などの複数のベンチマークに対する大規模な実験により, 提案手法は単純かつ効果的であり, 単目的推論においても最先端の精度を実現し, トレーニングと推論の両方において効率がよいことを示した。
関連論文リスト
- Towards the Training of Deeper Predictive Coding Neural Networks [53.15874572081944]
平衡伝播で訓練された予測符号化ネットワークは、反復エネルギープロセスを通じて推論を行うニューラルネットワークである。
従来の研究では、浅層建築において効果が示されたが、深さが5層から7層を超えると性能が著しく低下した。
この劣化の原因は,重み更新時の層間エラーの指数的不均衡化と,より深い層内の更新を導く上で,前層からの予測が有効でないことにある。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - Traversing Distortion-Perception Tradeoff using a Single Score-Based Generative Model [35.91741991271154]
歪み知覚トレードオフは、歪みメトリクスと知覚品質の根本的な矛盾を明らかにします。
本稿では,1つのスコアネットワークがDPトレードオフを効果的かつ柔軟に越えられることを示す。
論文 参考訳(メタデータ) (2025-03-26T07:37:53Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。