論文の概要: DexSIM: Real-time Dexterous Simulation with Unified Causal Video Diffusion
- arxiv url: http://arxiv.org/abs/2605.24630v1
- Date: Sat, 23 May 2026 15:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.282861
- Title: DexSIM: Real-time Dexterous Simulation with Unified Causal Video Diffusion
- Title(参考訳): DexSIM: 統一因果ビデオ拡散を用いたリアルタイムデクスタラスシミュレーション
- Authors: Adam Lee,
- Abstract要約: 本稿では,デキスタラス操作をリアルタイムにシミュレートするためのデキスタラス・シミュレーション・フレームワークであるDexSIMを提案する。
既存の手法では、リアルタイムの対話性と長期空間の一貫性と記憶が欠如している。
ハンドモーション転送などの新しいアプリケーションも可能で、15.24 FPSのリアルタイム対話性で動作する。
- 参考スコア(独自算出の注目度): 0.18613536568358358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress of video diffusion models have enabled extensive simulation of the physical world. While simulation with hand object interaction has been less explored. We propose DexSIM, a dexterous simulation framework for simulating dexterous manipulation in real-time. While previous works utilizing video diffusion and 3D reconstruction focus on navigation, dexterous manipulation has been limited while it has extensive applications for creating interactive experiences with the simulated world and for generating synthetic data for robotics. Existing methods lack real-time interactivity and long-term spatial consistency and memory. We propose a 2-stage training framework for DexSIM. First we train a bi-directional video diffusion model by jointly embedding the hand action trajectory and video in a unified feature space. We utilize gaussian heatmap hand encoding for more accurate hand representation. Then we conduct a roll-out based autoregressive training with updated spatial cache as attention sink for spatial memory, which improves long-term consistency and 3D aware dexterous manipulation simulation. DexSIM outperforms the baseline on pixel and semantic similarity, motion fidelity, and hand projection accuracy. It also allows new applications such as hand motion transfer and runs at 15.24 FPS real-time interactivity.
- Abstract(参考訳): 映像拡散モデルの最近の進歩は、物理世界の広範なシミュレーションを可能にした。
手動物体の相互作用によるシミュレーションは、あまり研究されていない。
本稿では,デキスタラス操作をリアルタイムにシミュレートするためのデキスタラス・シミュレーション・フレームワークであるDexSIMを提案する。
従来の映像拡散と3D再構成はナビゲーションに重点を置いていたが、擬似世界との対話的な体験やロボティクスのための合成データ作成に広く応用されている。
既存の手法では、リアルタイムの対話性と長期空間の一貫性と記憶が欠如している。
DexSIMのための2段階トレーニングフレームワークを提案する。
まず,手動軌跡と映像を一体化した特徴空間に共同で埋め込み,双方向ビデオ拡散モデルを訓練する。
我々はガウスのヒートマップハンドエンコーディングを利用してより正確な手表現を行う。
次に,空間記憶のためのアテンションシンクとして更新された空間キャッシュを用いたロールアウト型自己回帰トレーニングを行い,長期的整合性の向上と3次元顕在的操作シミュレーションを行った。
DexSIMは、ピクセルとセマンティックな類似性、動きの忠実さ、手射影精度でベースラインを上回ります。
ハンドモーション転送などの新しいアプリケーションも可能で、15.24 FPSのリアルタイム対話性で動作する。
関連論文リスト
- A Synthetic Eye Movement Dataset for Script Reading Detection: Real Trajectory Replay on a 3D Simulator [12.307366979757065]
本稿では,参照ビデオから実際の人間の虹彩軌跡を抽出し,合成ラベル付き眼球運動ビデオを生成するパイプラインを提案する。
144セッション(72読取,72会話)を25fpsで12時間合成眼球運動ビデオとしてリリースした。
一致したフレーム・バイ・フレーム比較により、3Dシミュレータは読み出しスケールの動作に対して有界感度を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-04-07T06:15:48Z) - DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer [62.18680935878919]
レンダリングを時間的に一貫した出力に変換するオンライン生成拡張フレームワークであるDiffusionHarmonizerを紹介した。
コアとなるのは、単一のGPU上でオンラインシミュレータで実行可能な、一段階の時間的条件付きエンハンサーである。
論文 参考訳(メタデータ) (2026-02-27T15:35:30Z) - SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - Hybrid Neural-MPM for Interactive Fluid Simulations in Real-Time [57.30651532625017]
本稿では,数値シミュレーション,神経物理,生成制御を統合した新しいハイブリッド手法を提案する。
本システムでは, 多様な2D/3Dシナリオ, 材料タイプ, 障害物相互作用における堅牢な性能を示す。
受け入れ次第、モデルとデータの両方をリリースすることを約束します。
論文 参考訳(メタデータ) (2025-05-25T01:27:18Z) - X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real [20.561250366126625]
X-Simは、ロボットのポリシーを学ぶための、密集した伝達可能な信号としてオブジェクトの動きを利用する、リアルからシミュレート・トゥ・リアルなフレームワークである。
X-Simは、RGBDの人間のビデオからシミュレーションを再構築し、オブジェクト中心の報酬を定義するためにオブジェクトの軌跡を追跡することから始まる。
学習方針は、様々な視点と照明でレンダリングされた合成ロールアウトを用いて、画像調和拡散政策に蒸留される。
論文 参考訳(メタデータ) (2025-05-11T19:04:00Z) - Learning 3D-Gaussian Simulators from RGB Videos [20.250137125726265]
3DGSimは学習した3Dシミュレータで、マルチビューのRGBビデオから物理的相互作用を学習する。
3Dシーンの再構成、粒子動力学予測、ビデオ合成をエンドツーエンドのトレーニングフレームワークに統合する。
論文 参考訳(メタデータ) (2025-03-31T12:33:59Z) - Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation [62.5805866419814]
Vid2Simは、ニューラル3Dシーンの再構築とシミュレーションのためのスケーラブルで費用効率のよいReal2simパイプラインを通じてsim2realギャップをブリッジする新しいフレームワークである。
実験により、Vid2Simはデジタル双生児と現実世界の都市ナビゲーションの性能を31.2%、成功率68.3%で大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-01-12T03:01:15Z) - Inferring Articulated Rigid Body Dynamics from RGBD Video [18.154013621342266]
我々は,逆レンダリングと微分可能なシミュレーションを組み合わせるパイプラインを導入し,実世界の調音機構のディジタルツインを作成する。
本手法はロボットが操作する関節機構のキネマティックツリーを正確に再構築する。
論文 参考訳(メタデータ) (2022-03-20T08:19:02Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。