論文の概要: DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects
- arxiv url: http://arxiv.org/abs/2404.12524v1
- Date: Thu, 18 Apr 2024 21:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:44:29.212373
- Title: DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects
- Title(参考訳): DoughNet: 変形可能なオブジェクトのトポロジカル操作のための視覚予測モデル
- Authors: Dominik Bauer, Zhenjia Xu, Shuran Song,
- Abstract要約: 弾塑性物体との相互作用を計画するトランスフォーマーアーキテクチャ
DoughNetはロボット操作の計画を可能にし、ロボットや人間が作った目標を再現するために、適切なツール、ポーズ、開口幅を選択する。
- 参考スコア(独自算出の注目度): 27.194896819729113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulation of elastoplastic objects like dough often involves topological changes such as splitting and merging. The ability to accurately predict these topological changes that a specific action might incur is critical for planning interactions with elastoplastic objects. We present DoughNet, a Transformer-based architecture for handling these challenges, consisting of two components. First, a denoising autoencoder represents deformable objects of varying topology as sets of latent codes. Second, a visual predictive model performs autoregressive set prediction to determine long-horizon geometrical deformation and topological changes purely in latent space. Given a partial initial state and desired manipulation trajectories, it infers all resulting object geometries and topologies at each step. DoughNet thereby allows to plan robotic manipulation; selecting a suited tool, its pose and opening width to recreate robot- or human-made goals. Our experiments in simulated and real environments show that DoughNet is able to significantly outperform related approaches that consider deformation only as geometrical change.
- Abstract(参考訳): ドーナツのような弾塑性物体の操作は、しばしば分裂や融合のような位相変化を伴う。
特定の作用が生じる可能性のあるトポロジカルな変化を正確に予測する能力は、弾塑性物体との相互作用を計画するのに重要である。
本稿では2つのコンポーネントからなるトランスフォーマーベースのアーキテクチャであるDoughNetを紹介する。
まず、デノナイジングオートエンコーダは、様々なトポロジの変形可能なオブジェクトを潜在符号の集合として表現する。
第二に、視覚的予測モデルは自己回帰的集合予測を行い、横方向の幾何学的変形と位相的変化を潜時空間で純粋に決定する。
部分的な初期状態と所望の操作軌跡が与えられた場合、各ステップで得られる全てのオブジェクトジオメトリとトポロジーを推測する。
そこでDoughNetは、ロボット操作の計画を可能にし、ロボットや人間が作った目標を再現するために、適切なツール、ポーズ、開口幅を選択する。
シミュレーションおよび実環境における実験により,DoughNetは,変形を幾何学的変化としてのみ考慮する関連するアプローチを著しく上回っていることが示された。
関連論文リスト
- GeoFormer: A Multi-Polygon Segmentation Transformer [10.097953939411868]
リモートセンシングでは、建物のような物体のスケール不変な形状を学習する必要がある。
このような課題に対処する新しいアーキテクチャであるGeoFormerを導入し、マルチポリゴンをエンドツーエンドに生成する方法を学習する。
キーポイントを自動回帰方式で空間依存トークンとしてモデル化することにより、GeoFormerは、衛星画像から構築対象を指示する既存の作業より優れている。
論文 参考訳(メタデータ) (2024-11-25T17:54:44Z) - Physics-Encoded Graph Neural Networks for Deformation Prediction under
Contact [87.69278096528156]
ロボット工学では、触覚相互作用における物体の変形を理解することが不可欠である。
本稿では,物理符号化グラフニューラルネットワーク(GNN)を用いた予測手法を提案する。
コードとデータセットを公開して、ロボットシミュレーションと把握の研究を進めました。
論文 参考訳(メタデータ) (2024-02-05T19:21:52Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - ShapeShift: Superquadric-based Object Pose Estimation for Robotic
Grasping [85.38689479346276]
現在の技術は参照3Dオブジェクトに大きく依存しており、その一般化性を制限し、新しいオブジェクトカテゴリに拡張するのにコストがかかる。
本稿では,オブジェクトに適合するプリミティブな形状に対してオブジェクトのポーズを予測する,オブジェクトのポーズ推定のためのスーパークワッドリックベースのフレームワークであるShapeShiftを提案する。
論文 参考訳(メタデータ) (2023-04-10T20:55:41Z) - Learning Robust Dynamics through Variational Sparse Gating [18.476155786474358]
多くのオブジェクトを持つ環境では、少数のオブジェクトが同時に動いたり相互作用したりしているのが普通です。
本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。
論文 参考訳(メタデータ) (2022-10-21T02:56:51Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Sequential Topological Representations for Predictive Models of
Deformable Objects [18.190326379178995]
我々は、高度に変形可能なオブジェクトの状態を取得するために、コンパクトな位相表現を構築する。
我々は、時間を通してこのトポロジカルな状態の進化を追跡するアプローチを開発する。
シミュレーションにおける高変形性物体を用いた実験により,提案した多段階予測モデルにより,計算トポロジーライブラリから得られたものよりも精度の高い結果が得られることが示された。
論文 参考訳(メタデータ) (2020-11-23T19:45:15Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Predicting the Physical Dynamics of Unseen 3D Objects [65.49291702488436]
インパルス力を受ける平面上での3次元物体の動的挙動の予測に焦点をあてる。
我々の手法は、訓練中に目に見えない物体の形状や初期条件に一般化することができる。
我々のモデルは物理エンジンと実世界の両方のデータによるトレーニングをサポートすることができる。
論文 参考訳(メタデータ) (2020-01-16T06:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。