論文の概要: DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation
- arxiv url: http://arxiv.org/abs/2402.12647v2
- Date: Tue, 5 Mar 2024 07:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:00:13.208873
- Title: DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation
- Title(参考訳): DiffusionNOCS: Sim2Real Multi-Modal Category-level Pose Estimationにおける対称性と不確かさの管理
- Authors: Takuya Ikeda, Sergey Zakharov, Tianyi Ko, Muhammad Zubair Irshad,
Robert Lee, Katherine Liu, Rares Ambrus, Koichi Nishiwaki
- Abstract要約: 本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
- 参考スコア(独自算出の注目度): 20.676510832922016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenging problem of category-level pose
estimation. Current state-of-the-art methods for this task face challenges when
dealing with symmetric objects and when attempting to generalize to new
environments solely through synthetic data training. In this work, we address
these challenges by proposing a probabilistic model that relies on diffusion to
estimate dense canonical maps crucial for recovering partial object shapes as
well as establishing correspondences essential for pose estimation.
Furthermore, we introduce critical components to enhance performance by
leveraging the strength of the diffusion models with multi-modal input
representations. We demonstrate the effectiveness of our method by testing it
on a range of real datasets. Despite being trained solely on our generated
synthetic data, our approach achieves state-of-the-art performance and
unprecedented generalization qualities, outperforming baselines, even those
specifically trained on the target domain.
- Abstract(参考訳): 本稿ではカテゴリレベルのポーズ推定の課題に対処する。
このタスクの現在の最先端の手法は、対称オブジェクトを扱う場合や、合成データトレーニングのみを通じて新しい環境に一般化しようとする場合の課題に直面している。
本研究では, 部分物体形状の復元に不可欠な高次正準写像を推定し, ポーズ推定に不可欠な対応性を確立するために, 拡散に依存する確率モデルを提案する。
さらに,マルチモーダル入力表現を用いた拡散モデルの強みを活かし,性能向上のために重要なコンポーネントを導入する。
本稿では,本手法の有効性を実データで検証することで実証する。
我々の生成した合成データのみに基づいてトレーニングされているにもかかわらず、我々のアプローチは最先端のパフォーマンスと前例のない一般化品質を達成し、ターゲットドメインで特別にトレーニングされたデータでもベースラインよりも優れています。
関連論文リスト
- SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。
提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。
このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-06-10T06:29:00Z) - Cross-Database Liveness Detection: Insights from Comparative Biometric
Analysis [20.821562115822182]
生検は生検と生検を区別する能力である。
本研究は, 生活度検出モデルの総合的な評価を行う。
私たちの研究は、バイオメトリックセキュリティの進化するリズムをナビゲートするための青写真を提供しています。
論文 参考訳(メタデータ) (2024-01-29T15:32:18Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in
Imaging Inverse Problems [78.76955228709241]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定データに特化してデノイングネットワークを適用する。
我々は多様な画像モダリティをまたいだOOD性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - GenPose: Generative Category-level Object Pose Estimation via Diffusion
Models [5.1998359768382905]
カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討することで,新しい解を提案する。
提案手法は,厳密な5d2cmおよび5d5cmの計測値に対して50%と60%を越え,REAL275データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-18T11:45:42Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Progressive residual learning for single image dehazing [57.651704852274825]
物理モデルフリーなデハジングプロセスと, 再構成された散乱モデルに基づくデハジング操作を組み合わせるために, 漸進的残留学習戦略が提案されている。
提案手法は,公開デヘイジングベンチマークにおける最先端手法に対して,複雑なデータに対するモデル解釈性と適応性に優れる。
論文 参考訳(メタデータ) (2021-03-14T16:54:44Z) - A Multi-Channel Neural Graphical Event Model with Negative Evidence [76.51278722190607]
イベントデータセットは、タイムライン上で不規則に発生するさまざまなタイプのイベントのシーケンスである。
基礎となる強度関数を推定するために,非パラメトリックディープニューラルネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T23:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。