論文の概要: DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation
- arxiv url: http://arxiv.org/abs/2402.12647v1
- Date: Tue, 20 Feb 2024 01:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:37:24.281466
- Title: DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation
- Title(参考訳): DiffusionNOCS: Sim2Real Multi-Modal Category-level Pose Estimationにおける対称性と不確かさの管理
- Authors: Takuya Ikeda, Sergey Zakharov, Tianyi Ko, Muhammad Zubair Irshad,
Robert Lee, Katherine Liu, Rares Ambrus, Koichi Nishiwaki
- Abstract要約: 本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
- 参考スコア(独自算出の注目度): 20.676510832922016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenging problem of category-level pose
estimation. Current state-of-the-art methods for this task face challenges when
dealing with symmetric objects and when attempting to generalize to new
environments solely through synthetic data training. In this work, we address
these challenges by proposing a probabilistic model that relies on diffusion to
estimate dense canonical maps crucial for recovering partial object shapes as
well as establishing correspondences essential for pose estimation.
Furthermore, we introduce critical components to enhance performance by
leveraging the strength of the diffusion models with multi-modal input
representations. We demonstrate the effectiveness of our method by testing it
on a range of real datasets. Despite being trained solely on our generated
synthetic data, our approach achieves state-of-the-art performance and
unprecedented generalization qualities, outperforming baselines, even those
specifically trained on the target domain.
- Abstract(参考訳): 本稿ではカテゴリレベルのポーズ推定の課題に対処する。
このタスクの現在の最先端の手法は、対称オブジェクトを扱う場合や、合成データトレーニングのみを通じて新しい環境に一般化しようとする場合の課題に直面している。
本研究では, 部分物体形状の復元に不可欠な高次正準写像を推定し, ポーズ推定に不可欠な対応性を確立するために, 拡散に依存する確率モデルを提案する。
さらに,マルチモーダル入力表現を用いた拡散モデルの強みを活かし,性能向上のために重要なコンポーネントを導入する。
本稿では,本手法の有効性を実データで検証することで実証する。
我々の生成した合成データのみに基づいてトレーニングされているにもかかわらず、我々のアプローチは最先端のパフォーマンスと前例のない一般化品質を達成し、ターゲットドメインで特別にトレーニングされたデータでもベースラインよりも優れています。
関連論文リスト
- Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本稿では,因果推論設定におけるモデル一般化可能性を評価するための体系的かつ定量的なフレームワークを提案する。
実データに基づくシミュレーションにより,本手法はより現実的な評価を確実にする。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。
提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。
このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-06-10T06:29:00Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - GenPose: Generative Category-level Object Pose Estimation via Diffusion
Models [5.1998359768382905]
カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討することで,新しい解を提案する。
提案手法は,厳密な5d2cmおよび5d5cmの計測値に対して50%と60%を越え,REAL275データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-18T11:45:42Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。