Fugu-MT 論文翻訳(概要): ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object Manipulation

論文の概要: ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object Manipulation

arxiv url: http://arxiv.org/abs/2203.06856v1
Date: Mon, 14 Mar 2022 04:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-15 14:18:01.733369
Title: ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object Manipulation
Title（参考訳）: ACID: 変形可能なオブジェクト操作のためのアクション駆動型視覚ダイナミクス
Authors: Bokui Shen, Zhenyu Jiang, Christopher Choy, Leonidas J. Guibas, Silvio Savarese, Anima Anandkumar and Yuke Zhu
Abstract要約: 本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
参考スコア（独自算出の注目度）: 135.10594078615952
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Manipulating volumetric deformable objects in the real world, like plush toys and pizza dough, bring substantial challenges due to infinite shape variations, non-rigid motions, and partial observability. We introduce ACID, an action-conditional visual dynamics model for volumetric deformable objects based on structured implicit neural representations. ACID integrates two new techniques: implicit representations for action-conditional dynamics and geodesics-based contrastive learning. To represent deformable dynamics from partial RGB-D observations, we learn implicit representations of occupancy and flow-based forward dynamics. To accurately identify state change under large non-rigid deformations, we learn a correspondence embedding field through a novel geodesics-based contrastive loss. To evaluate our approach, we develop a simulation framework for manipulating complex deformable shapes in realistic scenes and a benchmark containing over 17,000 action trajectories with six types of plush toys and 78 variants. Our model achieves the best performance in geometry, correspondence, and dynamics predictions over existing approaches. The ACID dynamics models are successfully employed to goal-conditioned deformable manipulation tasks, resulting in a 30% increase in task success rate over the strongest baseline. For more results and information, please visit https://b0ku1.github.io/acid-web/ .
Abstract（参考訳）: ぬいぐるみやピザ生地など、現実世界で体積変形可能な物体を操作することは、無限の形状の変化、非剛性運動、部分的可観測性などの問題を引き起こす。構造化された暗黙的表現に基づく体積変形可能なオブジェクトに対する行動条件視覚ダイナミクスモデルであるacidを提案する。 acidは2つの新しいテクニックを統合している: アクション条件ダイナミクスのための暗黙表現と、測地学に基づくコントラスト学習である。部分的なRGB-D観測から変形可能なダイナミクスを表現するために、占有率とフローベースフォワードダイナミクスの暗黙的な表現を学習する。大きな非剛性変形下での状態変化を正確に識別するために,新しい測地線に基づくコントラスト損失を通じて対応埋め込み場を学習する。本手法を評価するために,複雑な変形可能な形状を現実のシーンで操作するシミュレーションフレームワークと,6種類のぬいぐるみと78種類の変種を含む17,000以上のアクショントラジェクタを含むベンチマークを開発した。我々のモデルは、既存のアプローチよりも幾何、対応、動的予測において最高の性能を達成する。 ACIDのダイナミクスモデルは、ゴール条件付き変形可能な操作タスクにうまく採用され、最強のベースラインよりもタスク成功率が30%向上する。さらなる結果と情報については、https://b0ku1.github.io/acid-web/ をご覧ください。

関連論文リスト

Particle-Grid Neural Dynamics for Learning Deformable Object Models from RGB-D Videos [30.367498271886866]
我々は,物体粒子と空間格子をハイブリッド表現で結合したニューラル・ダイナミクス・フレームワークを開発した。我々は,ロボットと物体の相互作用の疎視的RGB-D記録から,多様な物体のダイナミックスを学習できることを実証した。提案手法は,特にカメラビューに制限のあるシナリオにおいて,最先端の学習ベースシミュレータや物理ベースのシミュレータよりも優れている。
論文参考訳（メタデータ） (2025-06-18T17:59:38Z)
DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation [16.863534382288705]
本研究では,未来の状態を共同で予測し,歴史的軌跡に基づく動的変動に適応して行動学習を促進する新しい枠組みを提案する。 DyWAは実世界の実験で平均68%の成功率を達成した。
論文参考訳（メタデータ） (2025-03-21T02:29:52Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation [52.36691633451968]
ViTaM-Dは動的手動物体相互作用再構成のための視覚触覚フレームワークである。 DF-Fieldは分散力認識型接触表現モデルである。剛性および変形性のある物体再構成におけるViTaM-Dの優れた性能について検討した。
論文参考訳（メタデータ） (2024-11-14T16:29:45Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
DENSER: 3D Gaussians Splatting for Scene Reconstruction of Dynamic Urban Environments [0.0]
動的オブジェクトの表現を大幅に強化するフレームワークであるDENSERを提案する。提案手法は最先端の手法を広いマージンで大幅に上回る。
論文参考訳（メタデータ） (2024-09-16T07:11:58Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。人体全体の動きや部分レベルの物体の動きを複雑に捉えます。本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-03-13T15:45:04Z)
Learning visual-based deformable object rearrangement with local graph neural networks [4.333220038316982]
本稿では,変形可能なオブジェクト状態とキーポイントの集合とその相互作用を効率的にモデル化できる新しい表現戦略を提案する。また、変形可能な再配置ダイナミクスを共同でモデル化し、最適操作動作を推定するための光局所GNN学習を提案する。本手法は, 各種変形可能なアレンジメントタスク(平均96.3%)において, シミュレーション実験における最先端手法よりもはるかに高い成功率を達成する。
論文参考訳（メタデータ） (2023-10-16T11:42:54Z)
AGAR: Attention Graph-RNN for Adaptative Motion Prediction of Point Clouds of Deformable Objects [7.414594429329531]
変形可能な3Dオブジェクトのポイントクラウド予測のための改良されたアーキテクチャを提案する。具体的には、変形可能な形状を扱うために、点雲の空間構造を学習し、活用するグラフベースのアプローチを提案する。提案した適応モジュールは各点の局所的および大域的な動きの合成を制御し、変形可能な3Dオブジェクトの複雑な動きをより効率的にモデル化することができる。
論文参考訳（メタデータ） (2023-07-19T12:21:39Z)
Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2023-06-29T05:51:44Z)
SoftSMPL: Data-driven Modeling of Nonlinear Soft-tissue Dynamics for Parametric Humans [15.83525220631304]
我々は,身体形状と運動の関数として,現実的なソフトタスクのダイナミクスをモデル化する学習ベース手法であるSoftSMPLを提案する。私たちのメソッドの中核には、非常に現実的なダイナミクスをモデル化できる3つの重要なコントリビューションがあります。
論文参考訳（メタデータ） (2020-04-01T10:35:06Z)
Learning Predictive Representations for Deformable Objects Using Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文参考訳（メタデータ） (2020-03-11T17:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。