論文の概要: TransDex: Pre-training Visuo-Tactile Policy with Point Cloud Reconstruction for Dexterous Manipulation of Transparent Objects
- arxiv url: http://arxiv.org/abs/2603.13869v1
- Date: Sat, 14 Mar 2026 09:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.455803
- Title: TransDex: Pre-training Visuo-Tactile Policy with Point Cloud Reconstruction for Dexterous Manipulation of Transparent Objects
- Title(参考訳): TransDex: 透明物体のデクサラス操作のための点雲再構成による事前学習型ビズオ触覚ポリシー
- Authors: Fengguan Li, Yifan Ma, Chen Qian, Wentao Rao, Weiwei Shang,
- Abstract要約: 有害な操作は複雑なタスクを可能にするが、透明物体を操作する際には、自己閉塞性、深度ノイズ、深度情報損失に悩まされる。
本稿では,3次元ビジュオ触覚融合モータポリシーであるTransDexを提案する。
実際のロボットシステムで行われた透明な物体操作実験の結果、TransDexは既存のベースライン法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 14.591201169062158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dexterous manipulation enables complex tasks but suffers from self-occlusion, severe depth noise, and depth information loss when manipulating transparent objects. To solve this problem, this paper proposes TransDex, a 3D visuo-tactile fusion motor policy based on point cloud reconstruction pre-training. Specifically, we first propose a self-supervised point cloud reconstruction pre-training approach based on Transformer. This method accurately recovers the 3D structure of objects from interactive point clouds of dexterous hands, even when random noise and large-scale masking are added. Building on this, TransDex is constructed in which perceptual encoding adopts a fine-grained hierarchical scheme and multi-round attention mechanisms adaptively fuse features of the robotic arm and dexterous hand to enable differentiated motion prediction. Results from transparent object manipulation experiments conducted on a real robotic system demonstrate that TransDex outperforms existing baseline methods. Further analysis validates the generalization capabilities of TransDex and the effectiveness of its individual components.
- Abstract(参考訳): 有害な操作は複雑なタスクを可能にするが、透明物体を操作する際には、自己閉塞性、深度ノイズ、深度情報損失に悩まされる。
そこで本研究では,3次元ビジュオ触覚融合モータであるTransDexを提案する。
具体的には、まず、Transformerに基づく自己教師付きポイントクラウド再構築事前学習手法を提案する。
ランダムノイズや大規模マスキングを付加しても,手指の対話的点雲から物体の3次元構造を正確に復元する。
そこで,TransDexは,ロボットアームと器用ハンドの特徴を適応的に融合させることにより,知覚的エンコーディングに微細な階層的スキームと多周的アテンション機構が採用されている。
実際のロボットシステムで行われた透明な物体操作実験の結果、TransDexは既存のベースライン法よりも優れていることが示された。
さらなる分析により、TransDexの一般化能力と個々のコンポーネントの有効性が検証される。
関連論文リスト
- Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。
具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。
その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-12-12T00:08:03Z) - ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? [23.73409728939164]
本稿では,調音対象の最適相互作用領域を予測するためのフレームワークであるManipGPTを紹介する。
9.9kのシミュレーションと実際の画像のデータセットを作成し、視覚的シミュレートとリアルのギャップを埋める。
我々は,ロボット操作のシナリオに対して,モデルのコンテキスト内セグメンテーション機能を適用することにより,部分レベルの割当セグメンテーションを大幅に改善する。
論文 参考訳(メタデータ) (2024-12-13T11:22:01Z) - ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - 3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior [62.80458034704989]
切り離された制御因子を特徴とする3次元顔モデルの生成は、コンピュータビジョンやコンピュータグラフィックスの多様な応用において大きな可能性を秘めている。
従来の3D顔モデリング手法は、これらの要因を効果的に解消するために特定のラベルを要求するため、課題に直面している。
本稿では,WSDF(Wakly Supervised Disentanglement Framework)を導入し,過度に拘束的なラベル付けを必要とせず,制御可能な3次元顔モデルのトレーニングを容易にする。
論文 参考訳(メタデータ) (2024-04-25T11:50:47Z) - RFTrans: Leveraging Refractive Flow of Transparent Objects for Surface
Normal Estimation and Manipulation [50.10282876199739]
本稿では、透明物体の表面正規化と操作のためのRGB-Dに基づくRFTransを提案する。
RFNetは屈折流、物体マスク、境界を予測し、次いでF2Netは屈折流から表面の正常を推定する。
現実のロボットがタスクをつかむと、成功率は83%となり、屈折流が直接シミュレートから現実への移動を可能にすることが証明される。
論文 参考訳(メタデータ) (2023-11-21T07:19:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。