論文の概要: CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions
- arxiv url: http://arxiv.org/abs/2602.01844v1
- Date: Mon, 02 Feb 2026 09:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.032725
- Title: CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions
- Title(参考訳): CloDS: 未知条件下でのビジュアルオンリーで教師なしの布のダイナミクス学習
- Authors: Yuliang Zhan, Jian Li, Wenbing Huang, Wenbing Huang, Yang Liu, Hao Sun,
- Abstract要約: 多視点視覚観測から布のダイナミックスを教師なし学習するための新しいシナリオである布のダイナミックスグラウンド(CDG)を紹介する。
我々はCDG用に設計された教師なし動的学習フレームワークであるClos Dynamics Splatting (CloDS)を提案する。
CloDSは3段階のパイプラインを採用し、まずビデオからジオメトリのグラウンドを実行し、グラウンドトメッシュ上でダイナミックスモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 36.41201675940166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has demonstrated remarkable capabilities in simulating complex dynamic systems. However, existing methods require known physical properties as supervision or inputs, limiting their applicability under unknown conditions. To explore this challenge, we introduce Cloth Dynamics Grounding (CDG), a novel scenario for unsupervised learning of cloth dynamics from multi-view visual observations. We further propose Cloth Dynamics Splatting (CloDS), an unsupervised dynamic learning framework designed for CDG. CloDS adopts a three-stage pipeline that first performs video-to-geometry grounding and then trains a dynamics model on the grounded meshes. To cope with large non-linear deformations and severe self-occlusions during grounding, we introduce a dual-position opacity modulation that supports bidirectional mapping between 2D observations and 3D geometry via mesh-based Gaussian splatting in video-to-geometry grounding stage. It jointly considers the absolute and relative position of Gaussian components. Comprehensive experimental evaluations demonstrate that CloDS effectively learns cloth dynamics from visual data while maintaining strong generalization capabilities for unseen configurations. Our code is available at https://github.com/whynot-zyl/CloDS. Visualization results are available at https://github.com/whynot-zyl/CloDS_video}.%\footnote{As in this example.
- Abstract(参考訳): ディープラーニングは複雑な力学系をシミュレートする際、顕著な能力を示した。
しかし、既存の方法は、監視や入力として既知の物理的特性を必要とし、未知の条件下での適用性を制限する。
この課題を探求するために,多視点視覚観測から布のダイナミックスを教師なし学習するための新しいシナリオであるCros Dynamics Grounding (CDG)を紹介した。
さらに,CDG用に設計された教師なし動的学習フレームワークであるClos Dynamics Splatting (CloDS)を提案する。
CloDSは3段階のパイプラインを採用し、まずビデオからジオメトリのグラウンドを実行し、グラウンドトメッシュ上でダイナミックスモデルをトレーニングする。
本研究では,2次元観測と3次元幾何学の双方向マッピングを支援する2重配置不透明変調を,ビデオ・ツー・ジオメトリ・グラウンドティング段階におけるメッシュベースガウス・スプレイティングにより導入する。
ガウス成分の絶対的かつ相対的な位置を共同で考える。
総合的な実験的評価により、CloDSは視覚データから布のダイナミクスを効果的に学習し、目に見えない構成の強力な一般化能力を維持していることが示された。
私たちのコードはhttps://github.com/whynot-zyl/CloDS.comで公開されています。
視覚化結果はhttps://github.com/whynot-zyl/CloDS_video}で確認できる。
%\footnote{As in this example。
関連論文リスト
- Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking [44.614763110719274]
我々は、グルーキング現象、すなわち遅延一般化について研究する。
本稿では,2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える新しいフレームワークを提案する。
私たちの研究は、体重減少、学習率、グルーキングにおけるサンプルサイズといったハイパースの役割に光を当てています。
論文 参考訳(メタデータ) (2025-09-25T20:08:09Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - ODG: Occupancy Prediction Using Dual Gaussians [38.9869091446875]
活動予測は周囲環境のカメラ画像から微細な3次元形状と意味を推定する。
既存の方法は、シーン表現として高密度グリッドを採用するか、単一のスパースクエリを使用してシーン全体を学習する。
複雑なシーンダイナミクスを効果的に捉えるために,階層的な二重スパースガウス表現であるODGを提案する。
論文 参考訳(メタデータ) (2025-06-11T06:03:03Z) - VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction [46.31516096522758]
カメラによる占領予測の最近の進歩は、3Dセマンティクスとシーンフローの同時予測に焦点を当てている。
本稿では,これらの課題とその根本原因を解決するために,VoxelSplatという新たな正規化フレームワークを提案する。
本フレームワークは,ガウス運動をモデル化するために,予測されたシーンフローを用いて,移動物体のシーンフローを自己監督的に学習することができる。
論文 参考訳(メタデータ) (2025-06-05T20:19:35Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Space-time 2D Gaussian Splatting for Accurate Surface Reconstruction under Complex Dynamic Scenes [30.32214593068206]
複雑なシーンにおける動的内容と閉塞に対処する時空間2次元ガウス散乱法を提案する。
具体的には、動的シーンにおける幾何学的品質を改善するために、標準2次元ガウススプラットを学習し、これらの2次元ガウススプラットを変形させる。
また, 構成不透明化戦略を導入し, 閉塞領域の表面の回復をさらに抑制する。
実世界のスパースビュービデオデータセットとモノクロダイナミックデータセットの実験は、再構築が最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-09-27T15:50:36Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。