論文の概要: Non-rigid Relative Placement through 3D Dense Diffusion
- arxiv url: http://arxiv.org/abs/2410.19247v2
- Date: Tue, 29 Oct 2024 13:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:57.376360
- Title: Non-rigid Relative Placement through 3D Dense Diffusion
- Title(参考訳): 3次元密度拡散による非剛性相対配置
- Authors: Eric Cai, Octavian Donca, Ben Eisner, David Held,
- Abstract要約: 相対配置」とは、ある物体が別の物体に配置されていることを予測することである。
近年の相対配置法は,ロボット操作のためのデータ効率学習に大きく進歩している。
これらは、現実の環境では非剛体が多用されているにもかかわらず、まだ変形可能な変換を表現していない。
本研究では,高密度拡散による異方性学習のための視覚に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.12190956406194
- License:
- Abstract: The task of "relative placement" is to predict the placement of one object in relation to another, e.g. placing a mug onto a mug rack. Through explicit object-centric geometric reasoning, recent methods for relative placement have made tremendous progress towards data-efficient learning for robot manipulation while generalizing to unseen task variations. However, they have yet to represent deformable transformations, despite the ubiquity of non-rigid bodies in real world settings. As a first step towards bridging this gap, we propose ``cross-displacement" - an extension of the principles of relative placement to geometric relationships between deformable objects - and present a novel vision-based method to learn cross-displacement through dense diffusion. To this end, we demonstrate our method's ability to generalize to unseen object instances, out-of-distribution scene configurations, and multimodal goals on multiple highly deformable tasks (both in simulation and in the real world) beyond the scope of prior works. Supplementary information and videos can be found at https://sites.google.com/view/tax3d-corl-2024 .
- Abstract(参考訳): 相対配置」のタスクは、例えばマグカップをマグラックに配置するなど、あるオブジェクトが別のオブジェクトに配置されていることを予測することである。
対象中心の幾何学的推論を通じて、最近の相対配置法は、見えないタスクのバリエーションに一般化しながら、ロボット操作のためのデータ効率の学習に向けて大きな進歩を遂げている。
しかし、現実の環境では非剛体が多用されているにもかかわらず、変形可能な変換を表現していない。
このギャップを埋める第一歩として、変形可能な物体間の幾何学的関係に対する相対配置の原理の拡張である「クロス変位」を提案し、密接な拡散を通してクロス変位を学習する新しい視覚ベースの方法を提案する。
この目的のために,本手法は,従来の作業範囲を超えて,複数の高度に変形可能なタスク(シミュレーションと実世界の両方)に対して,未確認のオブジェクトインスタンス,配布外のシーン構成,マルチモーダル目標を一般化する能力を示す。
追加情報とビデオはhttps://sites.google.com/view/tax3d-corl-2024 で見ることができる。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal
Rearrangement [49.888011242939385]
本研究では,シーン内のオブジェクトを並べ替えて,所望のオブジェクトとシーンの配置関係を実現するシステムを提案する。
パイプラインは、新しいジオメトリ、ポーズ、シーンとオブジェクトのレイアウトに一般化される。
論文 参考訳(メタデータ) (2023-07-10T17:56:06Z) - Efficient Representations of Object Geometry for Reinforcement Learning
of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。
学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文 参考訳(メタデータ) (2022-11-20T11:47:33Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - Continuous Surface Embeddings [76.86259029442624]
我々は、変形可能な対象カテゴリーにおける密接な対応を学習し、表現するタスクに焦点をあてる。
本稿では,高密度対応の新たな学習可能な画像ベース表現を提案する。
提案手法は,人間の身近なポーズ推定のための最先端手法と同等以上の性能を示すことを示す。
論文 参考訳(メタデータ) (2020-11-24T22:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。