論文の概要: VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via Simulation Fine-Tunin
- arxiv url: http://arxiv.org/abs/2510.14930v1
- Date: Thu, 16 Oct 2025 17:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.984171
- Title: VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via Simulation Fine-Tunin
- Title(参考訳): VT-Refine:シミュレーションファイントゥニンによるビジュオ触覚フィードバックを用いた双方向アセンブリ学習
- Authors: Binghao Huang, Jie Xu, Iretiayo Akinola, Wei Yang, Balakumar Sundaralingam, Rowland O'Flaherty, Dieter Fox, Xiaolong Wang, Arsalan Mousavian, Yu-Wei Chao, Yunzhu Li,
- Abstract要約: 人間は、リッチな触覚フィードバックに適応することで、バイマニュアルアセンブリータスクで卓越する。
VT-Refineは、実世界の実演、高忠実度触覚シミュレーション、強化学習を組み合わせた、ビジュオ触覚政策学習フレームワークである。
- 参考スコア(独自算出の注目度): 39.49846628626501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at bimanual assembly tasks by adapting to rich tactile feedback -- a capability that remains difficult to replicate in robots through behavioral cloning alone, due to the suboptimality and limited diversity of human demonstrations. In this work, we present VT-Refine, a visuo-tactile policy learning framework that combines real-world demonstrations, high-fidelity tactile simulation, and reinforcement learning to tackle precise, contact-rich bimanual assembly. We begin by training a diffusion policy on a small set of demonstrations using synchronized visual and tactile inputs. This policy is then transferred to a simulated digital twin equipped with simulated tactile sensors and further refined via large-scale reinforcement learning to enhance robustness and generalization. To enable accurate sim-to-real transfer, we leverage high-resolution piezoresistive tactile sensors that provide normal force signals and can be realistically modeled in parallel using GPU-accelerated simulation. Experimental results show that VT-Refine improves assembly performance in both simulation and the real world by increasing data diversity and enabling more effective policy fine-tuning. Our project page is available at https://binghao-huang.github.io/vt_refine/.
- Abstract(参考訳): 人間は、リッチな触覚フィードバックに適応することで、双対的アセンブリータスクで卓越する -- 人間のデモの亜最適性と限られた多様性のため、行動的クローンだけではロボットに複製することが難しい能力である。
本研究では,実世界の実演,高忠実度触覚シミュレーション,強化学習を組み合わせて,接触に富んだバイマニュアルアセンブリに対処するビズオ触覚政策学習フレームワークであるVT-Refineを提案する。
まず、視覚と触覚の同時入力を用いて、少数のデモに対して拡散ポリシーを訓練することから始める。
この方針は、シミュレートされた触覚センサーを備えた模擬デジタルツインに伝達され、より大規模な強化学習によって強化され、堅牢性と一般化が向上する。
高精度なシミュレート・トゥ・リアル転送を実現するために、通常の力信号を提供する高分解能圧抵抗触覚センサを活用し、GPU加速シミュレーションを用いて並列にリアルタイムにモデル化できる。
実験結果から,VT-Refineはデータの多様性を高め,より効果的な政策微調整を可能にすることにより,シミュレーションと実世界の双方での組立性能を向上させることが示された。
私たちのプロジェクトページはhttps://binghao-huang.github.io/vt_refine/で公開されています。
関連論文リスト
- Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper [7.618517580705364]
触覚センサーを内蔵した携帯型軽量グリップについて述べる。
視覚信号と触覚信号を統合するクロスモーダル表現学習フレームワークを提案する。
試験管挿入や管状流体移動などの細粒度タスクに対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-07-20T17:53:59Z) - The Sound of Simulation: Learning Multimodal Sim-to-Real Robot Policies with Generative Audio [138.07247714782412]
MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。
容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
論文 参考訳(メタデータ) (2025-07-03T17:59:58Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DiffSim2Real: Deploying Quadrupedal Locomotion Policies Purely Trained in Differentiable Simulation [35.76143996968696]
微分可能シミュレータから解析勾配で学習したロコモーションポリシーを実世界へ移動させることが可能であることを示す。
私たちの成功の重要な要因は、情報的勾配と物理的精度を組み合わせたスムーズな接触モデルです。
本物のクアッドペダルロボットが、独自のシミュレーションでトレーニングをした後で、独創的になれるのは、これが初めてだ。
論文 参考訳(メタデータ) (2024-11-04T15:43:57Z) - Visual-Tactile Sensing for In-Hand Object Reconstruction [38.42487660352112]
我々は、視覚触覚による手動オブジェクト再構成フレームワーク textbfVTacO を提案し、手動オブジェクト再構成のために textbfVTacOH に拡張する。
シミュレーション環境であるVT-Simは、剛性オブジェクトと変形可能なオブジェクトの両方のハンドオブジェクトインタラクションの生成をサポートする。
論文 参考訳(メタデータ) (2023-03-25T15:16:31Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Learning the sense of touch in simulation: a sim-to-real strategy for
vision-based tactile sensing [1.9981375888949469]
本稿では,3次元接触力分布の再構成を目的とした,視覚に基づく触覚センサについて述べる。
シミュレーションデータから完全に調整されたディープニューラルネットワークをトレーニングするための戦略が提案されている。
結果として得られる学習アーキテクチャは、さらなるトレーニングをすることなく、複数の触覚センサ間で直接転送可能であり、実際のデータに対して正確な予測が得られます。
論文 参考訳(メタデータ) (2020-03-05T14:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。