論文の概要: FingerViP: Learning Real-World Dexterous Manipulation with Fingertip Visual Perception
- arxiv url: http://arxiv.org/abs/2604.21331v1
- Date: Thu, 23 Apr 2026 06:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.337267
- Title: FingerViP: Learning Real-World Dexterous Manipulation with Fingertip Visual Perception
- Title(参考訳): FingerViP: Fingertipビジュアルパーセプションを用いた実世界のデクサラスマニピュレーション学習
- Authors: Zhen Zhang, Weinan Wang, Hejia Sun, Qingpeng Ding, Xiangyu Chu, Guoxin Fang, K. W. Samuel Au,
- Abstract要約: FingerViP は,指先を視覚的に知覚するビジュモータポリシーを用いて,器用な操作を行う学習システムである。
本研究では,3次元カメラと多視点指先視を併用した拡散型全体ビズモータポリシを開発し,人間の実演から直接複雑な操作スキルを効果的に学習する。
マルチビュー指先視覚の有効性を検証し,FingerViPの各種課題に対する堅牢性と適応性を示す。
- 参考スコア(独自算出の注目度): 10.506113833981436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current practice of dexterous manipulation generally relies on a single wrist-mounted view, which is often occluded and limits performance on tasks requiring multi-view perception. In this work, we present FingerViP, a learning system that utilizes a visuomotor policy with fingertip visual perception for dexterous manipulation. Specifically, we design a vision-enhanced fingertip module with an embedded miniature camera and install the modules on each finger of a multi-fingered hand. The fingertip cameras substantially improve visual perception by providing comprehensive, multi-view feedback of both the hand and its surrounding environment. Building on the integrated fingertip modules, we develop a diffusion-based whole-body visuomotor policy conditioned on a third-view camera and multi-view fingertip vision, which effectively learns complex manipulation skills directly from human demonstrations. To improve view-proprioception alignment and contact awareness, each fingertip visual feature is augmented with its corresponding camera pose encoding and per-finger joint-current encoding. We validate the effectiveness of the multi-view fingertip vision and demonstrate the robustness and adaptability of FingerViP on various challenging real-world tasks, including pressing buttons inside a confined box, retrieving sticks from an unstable support, retrieving objects behind an occluding curtain, and performing long-horizon cabinet opening and object retrieval, achieving an overall success rate of 80.8%. All hardware designs and code will be fully open-sourced.
- Abstract(参考訳): 現在の器用な操作の実践は、通常、単一の手首に取り付けられたビューに依存しており、しばしば無視され、マルチビューの知覚を必要とするタスクのパフォーマンスを制限する。
そこで本研究では,指先を視覚的に知覚するビジュモータポリシーを応用した学習システムであるFingerViPについて述べる。
具体的には、小型カメラを内蔵した視覚強調指先モジュールを設計し、複数の指の指に装着する。
指先カメラは、手と周囲環境の総合的なマルチビューフィードバックを提供することで、視覚的知覚を大幅に改善する。
統合指先モジュール上に構築した3次元カメラと多視点指先視覚を応用した拡散型全身視運動器政策を開発し,人間の実演から直接複雑な操作スキルを効果的に学習する。
視知覚アライメントと接触認識を改善するために、各指先視覚特徴を対応するカメラポーズエンコーディングおよびフィンガー関節電流エンコーディングで強化する。
マルチビュー指先視覚の有効性を検証し,固定箱内のボタン押下,不安定な支持体からの棒の回収,隠蔽カーテンの後ろの物体の回収,長水平キャビネットの開口と物体の検索など,実世界の課題に対するFingerViPの堅牢性と適応性を実証し,全体の成功率80.8%を達成した。
すべてのハードウェア設計とコードは、完全にオープンソースになる。
関連論文リスト
- FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation [8.809778152652724]
有害なロボット操作は、あらゆる段階の相互作用を包括的に知覚する必要がある。
我々は,対話プロセスを通じて連続的な視覚触覚フィードバックを提供する,コンパクトで費用効率のよいセンサであるFingerEyeを紹介する。
我々は、複数のFingerEyeセンサーからの信号を融合して、限られた実世界のデータから巧妙な操作行動を学習する視覚触覚模倣学習ポリシーを開発した。
論文 参考訳(メタデータ) (2026-04-22T15:37:34Z) - WHED: A Wearable Hand Exoskeleton for Natural, High-Quality Demonstration Collection [7.615440875928701]
We present WHED, a wearable hand-exoskeleton system designed for in-the-wild demonstration capture。
精度ピンチと全手囲いグリップにまたがる代表的把握および操作シーケンスの実現可能性を示す。
論文 参考訳(メタデータ) (2026-02-20T00:12:45Z) - OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction [93.88239833545623]
OpenTouchは、最初のインザワイルドなエゴセントリックなフルハンド触覚データセットです。
触覚信号は,理解のためのコンパクトで強力なキューを提供する。
我々は,マルチモーダルな自我中心の知覚,具体的学習,接触に富むロボット操作の促進を目指す。
論文 参考訳(メタデータ) (2025-12-18T18:18:17Z) - Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper [7.618517580705364]
触覚センサーを内蔵した携帯型軽量グリップについて述べる。
視覚信号と触覚信号を統合するクロスモーダル表現学習フレームワークを提案する。
試験管挿入や管状流体移動などの細粒度タスクに対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-07-20T17:53:59Z) - Learning Visuotactile Skills with Two Multifingered Hands [80.99370364907278]
マルチフィンガーハンドとバイソタクティブルデータを用いたバイマニアルシステムを用いて,人間の実演からの学習を探索する。
以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。
論文 参考訳(メタデータ) (2024-04-25T17:59:41Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - GelSight Svelte: A Human Finger-shaped Single-camera Tactile Robot
Finger with Large Sensing Coverage and Proprioceptive Sensing [6.951068104196682]
GelSight Svelteは、曲がった人間の指の大きさの、シングルカメラの触覚センサーだ。
原受容情報は、GelSight Svelteの柔軟な背骨の変形として反映される。
得られた画像から屈曲トルクとねじりトルクを推定するために、畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2023-09-19T19:19:50Z) - The Gesture Authoring Space: Authoring Customised Hand Gestures for
Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。
提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。
本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文 参考訳(メタデータ) (2022-07-03T18:33:33Z) - Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。
我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文 参考訳(メタデータ) (2022-04-25T17:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。