論文の概要: DAP: Diffusion-based Affordance Prediction for Multi-modality Storage
- arxiv url: http://arxiv.org/abs/2409.00499v1
- Date: Sat, 31 Aug 2024 16:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:18:10.781781
- Title: DAP: Diffusion-based Affordance Prediction for Multi-modality Storage
- Title(参考訳): DAP:多モード記憶のための拡散に基づく精度予測
- Authors: Haonan Chang, Kowndinya Boyalakuntla, Yuhan Liu, Xinyu Zhang, Liam Schramm, Abdeslam Boularias,
- Abstract要約: 本稿では,多モードオブジェクト記憶問題に対する拡散型Affordance予測パイプラインを提案する。
我々の実験は、DAPが現在最先端のRDDiffよりも優れた性能と訓練効率を示すものである。
我々の貢献は、計算効率が高く、現実の変動性を扱うことができるソリューションを提供することで、ロボット操作研究のギャップを埋める。
- 参考スコア(独自算出の注目度): 31.103726511999767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving storage problem: where objects must be accurately placed into containers with precise orientations and positions, presents a distinct challenge that extends beyond traditional rearrangement tasks. These challenges are primarily due to the need for fine-grained 6D manipulation and the inherent multi-modality of solution spaces, where multiple viable goal configurations exist for the same storage container. We present a novel Diffusion-based Affordance Prediction (DAP) pipeline for the multi-modal object storage problem. DAP leverages a two-step approach, initially identifying a placeable region on the container and then precisely computing the relative pose between the object and that region. Existing methods either struggle with multi-modality issues or computation-intensive training. Our experiments demonstrate DAP's superior performance and training efficiency over the current state-of-the-art RPDiff, achieving remarkable results on the RPDiff benchmark. Additionally, our experiments showcase DAP's data efficiency in real-world applications, an advancement over existing simulation-driven approaches. Our contribution fills a gap in robotic manipulation research by offering a solution that is both computationally efficient and capable of handling real-world variability. Code and supplementary material can be found at: https://github.com/changhaonan/DPS.git.
- Abstract(参考訳): ストレージ問題の解決: オブジェクトを正確な向きと位置でコンテナに正確に配置しなければならない場合、従来の再配置タスクを超えて、明確な課題が提示される。
これらの課題は、主に、きめ細かい6D操作の必要性と、同じストレージコンテナに複数の実行可能なゴール設定が存在する、ソリューション空間の固有のマルチモダリティが原因である。
本稿では,多モードオブジェクト記憶問題に対する拡散型Affordance Prediction (DAP) パイプラインを提案する。
DAPは2段階のアプローチを採用し、最初はコンテナ上の配置可能な領域を特定し、その後、オブジェクトとその領域の間の相対的なポーズを正確に計算する。
既存の方法は、マルチモダリティ問題や計算集約的なトレーニングに苦しむ。
本実験は, DAP が現在最先端の RPDiff よりも優れた性能と訓練効率を示し, RPDiff ベンチマークで顕著な結果を得たものである。
さらに,本実験では,実世界のアプリケーションにおけるDAPのデータ効率を実証し,シミュレーションによる既存手法の進歩を示す。
我々の貢献は、計算効率が高く、現実の変動性を扱うことができるソリューションを提供することで、ロボット操作研究のギャップを埋める。
コードと補足資料は、https://github.com/changhaonan/DPS.git.comにある。
関連論文リスト
- POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。
マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。
CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文 参考訳(メタデータ) (2024-04-17T21:47:45Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - PM-DETR: Domain Adaptive Prompt Memory for Object Detection with
Transformers [25.812325027602252]
トランスフォーマーベースの検出器(DETR)は、エンドツーエンドのオブジェクト検出に顕著な性能を示した。
DETRを異なるデータ分散に転送すると、パフォーマンスが大幅に低下する可能性がある。
本稿では,検出変圧器を異なる分布に適応させるための階層型Prompt Domain Memory (PDM)を提案する。
論文 参考訳(メタデータ) (2023-07-01T12:02:24Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Learning Feature Decomposition for Domain Adaptive Monocular Depth
Estimation [51.15061013818216]
改良されたアプローチは、深層学習の進歩で大きな成功をもたらしたが、それらは大量の地底深度アノテーションに依存している。
教師なしドメイン適応(UDA)は、教師付き学習の制約を緩和するため、ラベル付きソースデータからラベルなしターゲットデータに知識を転送する。
本稿では,その特徴空間をコンテンツやスタイルコンポーネントに分解することを学ぶための,学習特徴分解 for Adaptation (LFDA) と呼ばれる新しいMDEのためのUDA手法を提案する。
論文 参考訳(メタデータ) (2022-07-30T08:05:35Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。