論文の概要: TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance
- arxiv url: http://arxiv.org/abs/2601.20239v3
- Date: Tue, 24 Feb 2026 14:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.970832
- Title: TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance
- Title(参考訳): TouchGuide:Touch GuidanceによるVisuomotor Policiesの推論時間ステアリング
- Authors: Zhemeng Zhang, Jiahua Ma, Xincheng Yang, Xin Wen, Yuzhi Zhang, Boyan Li, Yiran Qin, Jin Liu, Can Zhao, Li Kang, Haoqin Hong, Zhenfei Yin, Philip Torr, Hao Su, Ruimao Zhang, Daolin Ma,
- Abstract要約: TouchGuideは、低次元のアクション空間内でモダリティを融合させる、クロス政治的なビズオ触覚融合パラダイムである。
TouchGuideは、事前訓練された拡散またはフローマッチングビズモータポリシーをガイドする2つの段階で動作する。
高品質で費用対効果の高いデータによるTouchGuideトレーニングを容易にするために,データ収集システムであるTacUMIを導入する。
- 参考スコア(独自算出の注目度): 53.35296919674763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained and contact-rich manipulation remain challenging for robots, largely due to the underutilization of tactile feedback. To address this, we introduce TouchGuide, a novel cross-policy visuo-tactile fusion paradigm that fuses modalities within a low-dimensional action space. Specifically, TouchGuide operates in two stages to guide a pre-trained diffusion or flow-matching visuomotor policy at inference time. First, the policy produces a coarse, visually-plausible action using only visual inputs during early sampling. Second, a task-specific Contact Physical Model (CPM) provides tactile guidance to steer and refine the action, ensuring it aligns with realistic physical contact conditions. Trained through contrastive learning on limited expert demonstrations, the CPM provides a tactile-informed feasibility score to steer the sampling process toward refined actions that satisfy physical contact constraints. Furthermore, to facilitate TouchGuide training with high-quality and cost-effective data, we introduce TacUMI, a data collection system. TacUMI achieves a favorable trade-off between precision and affordability; by leveraging rigid fingertips, it obtains direct tactile feedback, thereby enabling the collection of reliable tactile data. Extensive experiments on five challenging contact-rich tasks, such as shoe lacing and chip handover, show that TouchGuide consistently and significantly outperforms state-of-the-art visuo-tactile policies.
- Abstract(参考訳): 触覚フィードバックの未利用のため、ロボットにとってきめ細やかで接触に富んだ操作は依然として困難である。
この問題に対処するため,我々は,低次元のアクション空間内でモダリティを融合させる,新しいクロス政治ビズオ触覚融合パラダイムであるTouchGuideを紹介した。
具体的には、TouchGuideは、事前訓練された拡散またはフローマッチングビザモレータポリシーを推論時に導くために2段階で動作する。
第一に、このポリシーは、初期サンプリング時にのみ視覚入力を使用して、粗い、目に見えるアクションを生成する。
第2に、タスク固有の接触物理モデル(CPM)は、実際の物理的接触条件と整合性を確保するために、触覚による動作の調整と改善のためのガイダンスを提供する。
限られた専門家によるデモンストレーションの対照的な学習を通じて訓練されたCPMは、物理的な接触制約を満たす洗練された行動に向けてサンプリングプロセスを制御するための触覚インフォームド・ファシビリティスコアを提供する。
さらに,高品質で費用対効果の高いデータを用いたTouchGuideトレーニングを容易にするために,データ収集システムであるTacUMIを導入する。
TacUMIは精度と手頃さのトレードオフを良好に達成し、硬い指先を利用して直接触覚フィードバックを得ることにより、信頼性の高い触覚データの収集を可能にする。
靴ひもやチップハンドオーバといった5つの課題のあるコンタクトリッチなタスクに関する大規模な実験は、TouchGuideが一貫して、最先端のビジュオ触覚ポリシーを著しく上回っていることを示している。
関連論文リスト
- HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing [1.5861606459586157]
触覚を意識した操作はオフラインで学習でき、推論時に直接触覚フィードバックなしで展開できると我々は主張する。
本稿では,HapticVLAについて述べる。HapticVLAは,SA-RWFM (Safety-Aware Reward-Weighted Flow Matching) とTactile Distillation (TD) の2つの密結合段階で進行する。
論文 参考訳(メタデータ) (2026-03-16T13:24:58Z) - Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding [5.936373185672394]
Contact-Grounded Policy (CGP) は、実際のロボット状態と触覚フィードバックの複合軌跡を予測することで、多点接触を根拠とするビゾタクティルポリシーである。
CGPは, (i) 圧縮潜在空間における将来のロボットの状態と触覚フィードバックを予測する条件拡散モデル, (ii) 学習された接触一貫性マッピングの2つのコンポーネントから構成される。
指先触覚センサDgit360を用いた4本指のAllegro V5手と,高密度全手触覚アレイを用いた5本指のTesollo DG-5F手を用いてCGPを評価した。
論文 参考訳(メタデータ) (2026-03-05T21:22:49Z) - OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction [93.88239833545623]
OpenTouchは、最初のインザワイルドなエゴセントリックなフルハンド触覚データセットです。
触覚信号は,理解のためのコンパクトで強力なキューを提供する。
我々は,マルチモーダルな自我中心の知覚,具体的学習,接触に富むロボット操作の促進を目指す。
論文 参考訳(メタデータ) (2025-12-18T18:18:17Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper [7.618517580705364]
触覚センサーを内蔵した携帯型軽量グリップについて述べる。
視覚信号と触覚信号を統合するクロスモーダル表現学習フレームワークを提案する。
試験管挿入や管状流体移動などの細粒度タスクに対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-07-20T17:53:59Z) - Towards Generalization of Tactile Image Generation: Reference-Free Evaluation in a Leakage-Free Setting [25.355424080824996]
触覚は人間の知覚に重要であり、コンピュータビジョン、ロボティクス、マルチモーダル学習の応用を支えている。
触覚データは入手が困難でコストがかかることが多いため、合成触覚画像の生成は、実世界の測定を拡大するためのスケーラブルなソリューションを提供する。
一般的なデータセットにおける重なり合うトレーニングとテストサンプルは、パフォーマンス指標を増大させ、触覚モデルの真の一般化可能性を見極めることを実証する。
論文 参考訳(メタデータ) (2025-03-10T02:37:22Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z) - Learning Visuotactile Skills with Two Multifingered Hands [80.99370364907278]
マルチフィンガーハンドとバイソタクティブルデータを用いたバイマニアルシステムを用いて,人間の実演からの学習を探索する。
以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。
論文 参考訳(メタデータ) (2024-04-25T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。