Fugu-MT 論文翻訳(概要): DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal Category-level Pose Estimation

論文の概要: DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal Category-level Pose Estimation

arxiv url: http://arxiv.org/abs/2402.12647v1
Date: Tue, 20 Feb 2024 01:48:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 17:37:24.281466
Title: DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal Category-level Pose Estimation
Title（参考訳）: DiffusionNOCS: Sim2Real Multi-Modal Category-level Pose Estimationにおける対称性と不確かさの管理
Authors: Takuya Ikeda, Sergey Zakharov, Tianyi Ko, Muhammad Zubair Irshad, Robert Lee, Katherine Liu, Rares Ambrus, Koichi Nishiwaki
Abstract要約: 本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
参考スコア（独自算出の注目度）: 20.676510832922016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the challenging problem of category-level pose estimation. Current state-of-the-art methods for this task face challenges when dealing with symmetric objects and when attempting to generalize to new environments solely through synthetic data training. In this work, we address these challenges by proposing a probabilistic model that relies on diffusion to estimate dense canonical maps crucial for recovering partial object shapes as well as establishing correspondences essential for pose estimation. Furthermore, we introduce critical components to enhance performance by leveraging the strength of the diffusion models with multi-modal input representations. We demonstrate the effectiveness of our method by testing it on a range of real datasets. Despite being trained solely on our generated synthetic data, our approach achieves state-of-the-art performance and unprecedented generalization qualities, outperforming baselines, even those specifically trained on the target domain.
Abstract（参考訳）: 本稿ではカテゴリレベルのポーズ推定の課題に対処する。このタスクの現在の最先端の手法は、対称オブジェクトを扱う場合や、合成データトレーニングのみを通じて新しい環境に一般化しようとする場合の課題に直面している。本研究では, 部分物体形状の復元に不可欠な高次正準写像を推定し, ポーズ推定に不可欠な対応性を確立するために, 拡散に依存する確率モデルを提案する。さらに,マルチモーダル入力表現を用いた拡散モデルの強みを活かし,性能向上のために重要なコンポーネントを導入する。本稿では,本手法の有効性を実データで検証することで実証する。我々の生成した合成データのみに基づいてトレーニングされているにもかかわらず、我々のアプローチは最先端のパフォーマンスと前例のない一般化品質を達成し、ターゲットドメインで特別にトレーニングされたデータでもベースラインよりも優れています。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Equipping Vision Foundation Model with Mixture of Experts for Out-of-Distribution Detection [36.97738113847375]
OOD検出のための代表的視覚基盤モデルについて検討する。事前訓練されたDINOv2モデルは、OOD検出のための高度に識別可能な特徴空間を自然に提供する。ドメイン内(ID)データの微調整基盤モデルにより、OODの検出が向上する。サブスペースに分割するMixture of Feature Experts (MoFE) モジュールを提案する。
論文参考訳（メタデータ） (2025-10-12T13:00:53Z)
UniTac2Pose: A Unified Approach Learned in Simulation for Category-level Visuotactile In-hand Pose Estimation [19.042061670329733]
本稿では,手動ポーズ推定のための新しい3段階フレームワークを提案する。最初の段階では、サンプリングとプレランクのポーズ候補、続いてこれらの候補を反復的に洗練する。最終段階では、最も可能性の高いポーズ候補を特定するためにポストランクが適用される。
論文参考訳（メタデータ） (2025-09-19T12:39:31Z)
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文参考訳（メタデータ） (2025-06-02T09:46:08Z)
Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。本稿では,因果推論設定におけるモデル一般化可能性を評価するための体系的かつ定量的なフレームワークを提案する。実データに基づくシミュレーションにより,本手法はより現実的な評価を確実にする。
論文参考訳（メタデータ） (2024-11-05T11:44:00Z)
MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文参考訳（メタデータ） (2024-10-12T07:02:33Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文参考訳（メタデータ） (2024-07-21T13:33:08Z)
SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文参考訳（メタデータ） (2024-06-13T15:16:38Z)
Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文参考訳（メタデータ） (2024-06-10T06:29:00Z)
pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文参考訳（メタデータ） (2024-01-25T18:57:36Z)
GenPose: Generative Category-level Object Pose Estimation via Diffusion Models [5.1998359768382905]
カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討することで,新しい解を提案する。提案手法は,厳密な5d2cmおよび5d5cmの計測値に対して50%と60%を越え,REAL275データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-18T11:45:42Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T19:57:19Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。