論文の概要: Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation
- arxiv url: http://arxiv.org/abs/2602.13833v1
- Date: Sat, 14 Feb 2026 16:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.464773
- Title: Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation
- Title(参考訳): カテゴリーレベル汎用触覚ツールマニピュレーションのための意味接触場
- Authors: Kevin Yuchen Ma, Heng Zhang, Weisi Lin, Mike Zheng Shou, Yan Wu,
- Abstract要約: ツール操作の一般化には、セマンティックプランニングと正確な物理的制御の両方が必要である。
本研究では,密接な接触推定を伴う視覚的意味論を融合した3次元表現であるセマンティック・コンタクト・フィールド(SCFields)を提案する。
スクレイピング、クレヨン描画、剥離の実験は、堅牢なカテゴリレベルの一般化を示している。
- 参考スコア(独自算出の注目度): 82.63833405368159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing tool manipulation requires both semantic planning and precise physical control. Modern generalist robot policies, such as Vision-Language-Action (VLA) models, often lack the high-fidelity physical grounding required for contact-rich tool manipulation. Conversely, existing contact-aware policies that leverage tactile or haptic sensing are typically instance-specific and fail to generalize across diverse tool geometries. Bridging this gap requires learning unified contact representations from diverse data, yet a fundamental barrier remains: diverse real-world tactile data are prohibitive at scale, while direct zero-shot sim-to-real transfer is challenging due to the complex dynamics of nonlinear deformation of soft sensors. To address this, we propose Semantic-Contact Fields (SCFields), a unified 3D representation fusing visual semantics with dense contact estimates. We enable this via a two-stage Sim-to-Real Contact Learning Pipeline: first, we pre-train on a large simulation data set to learn general contact physics; second, we fine-tune on a small set of real data, pseudo-labeled via geometric heuristics and force optimization, to align sensor characteristics. This allows physical generalization to unseen tools. We leverage SCFields as the dense observation input for a diffusion policy to enable robust execution of contact-rich tool manipulation tasks. Experiments on scraping, crayon drawing, and peeling demonstrate robust category-level generalization, significantly outperforming vision-only and raw-tactile baselines.
- Abstract(参考訳): ツール操作の一般化には、セマンティックプランニングと正確な物理的制御の両方が必要である。
VLA(Vision-Language-Action)モデルのような現代の一般的なロボットポリシーは、コンタクトリッチなツール操作に必要な高忠実度な物理的基盤を欠いていることが多い。
逆に、触覚や触覚のセンシングを利用する既存の接触認識ポリシーは、典型的にはインスタンス固有であり、多様なツール・ジオメトリにまたがる一般化に失敗する。
このギャップを埋めるには、多様なデータから統一された接触表現を学習する必要があるが、基本的な障壁は残されている。
そこで我々は,密接な接触推定を伴う視覚的セマンティクスを融合した3次元表現であるSemantic-Contact Fields (SCFields)を提案する。
2段階のSim-to-Real Contact Learning Pipeline: まず、一般の接触物理学を学習するための大規模なシミュレーションデータセットを事前訓練し、次に、幾何学的ヒューリスティックと力の最適化によって擬似ラベル付けされた小さな実データセットを微調整して、センサ特性を調整します。
これにより、物理的な一般化は見当たらないツールにできる。
我々はSCFieldsを拡散ポリシーの高密度な観測入力として利用し、コンタクトリッチツール操作タスクの堅牢な実行を可能にする。
スクレイピング、クレヨン描画、剥離の実験は、堅牢なカテゴリレベルの一般化を示し、視覚のみのベースラインと生の触覚ベースラインを著しく上回っている。
関連論文リスト
- OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [60.609604885961716]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - Tacmap: Bridging the Tactile Sim-to-Real Gap via Geometry-Consistent Penetration Depth Map [4.188018133636475]
視覚に基づく触覚センサは、器用なロボット操作を実現するのに不可欠である。
現在の触覚シミュレーションは永続的なジレンマに悩まされている。
浸透深度に固定された高忠実で計算効率の良い触覚シミュレーションフレームワークであるTacmapを提案する。
論文 参考訳(メタデータ) (2026-02-25T06:40:59Z) - UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors [51.88112610411651]
そこで本研究では,多様な触覚センサにまたがる共用潜在力空間を学習する,新しい統合された触覚表現学習フレームワークを提案する。
UniForceは、逆ダイナミクス(image-to-force)とフォワードダイナミクス(force-to-image)を共同モデリングすることで、クロスセンサー領域シフトを低減する
高価な外部力/トルクセンサ(F/T)への依存を避けるため,静的平衡を利用して直接センサ・オブジェクト・センサ・インタラクションを介して力対効果データを収集する。
論文 参考訳(メタデータ) (2026-02-01T11:03:01Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Towards Generalization of Tactile Image Generation: Reference-Free Evaluation in a Leakage-Free Setting [25.355424080824996]
触覚は人間の知覚に重要であり、コンピュータビジョン、ロボティクス、マルチモーダル学習の応用を支えている。
触覚データは入手が困難でコストがかかることが多いため、合成触覚画像の生成は、実世界の測定を拡大するためのスケーラブルなソリューションを提供する。
一般的なデータセットにおける重なり合うトレーニングとテストサンプルは、パフォーマンス指標を増大させ、触覚モデルの真の一般化可能性を見極めることを実証する。
論文 参考訳(メタデータ) (2025-03-10T02:37:22Z) - CORN: Contact-based Object Representation for Nonprehensile Manipulation of General Unseen Objects [1.3299507495084417]
非包括的操作は、野生ではあまりに薄く、大きく、または、そうでなければ不快な物体を操作するために不可欠である。
そこで本研究では,接触型オブジェクト表現と事前学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-16T01:47:53Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Optical Tactile Sim-to-Real Policy Transfer via Real-to-Sim Tactile
Image Translation [21.82940445333913]
触覚ロボットと強化学習に適したシミュレーション環境について紹介する。
データ駆動型アプローチにより、実際の触覚センサの現在の状態を、対応するシミュレーションされた深度画像に変換することができる。
このポリシーは、物理ロボットのリアルタイム制御ループ内に実装され、ゼロショットシム対リアルポリシー転送を実証する。
論文 参考訳(メタデータ) (2021-06-16T13:58:35Z) - Learning the sense of touch in simulation: a sim-to-real strategy for
vision-based tactile sensing [1.9981375888949469]
本稿では,3次元接触力分布の再構成を目的とした,視覚に基づく触覚センサについて述べる。
シミュレーションデータから完全に調整されたディープニューラルネットワークをトレーニングするための戦略が提案されている。
結果として得られる学習アーキテクチャは、さらなるトレーニングをすることなく、複数の触覚センサ間で直接転送可能であり、実際のデータに対して正確な予測が得られます。
論文 参考訳(メタデータ) (2020-03-05T14:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。