Fugu-MT 論文翻訳(概要): ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

論文の概要: ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

arxiv url: http://arxiv.org/abs/2603.09565v2
Date: Wed, 18 Mar 2026 12:10:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.159374
Title: ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly
Title（参考訳）: ReTac-ACT:精密組立用状態ゲート型ビジョン触覚融合変圧器
Authors: Minchi Ruan, LiangQing Zhou, Hongtong Li, Zongtao Wang, ZhaoMing Lu, Jianwei Zhang, Bin Fang,
Abstract要約: 精密な組み立てには、接触に富んだ「ラストミリ」領域でサブミリ秒の補正が必要である。 ReTac-ACTは3つのメカニズムを通じてこの問題に対処する。 90%のホール成功を達成し、視覚のみの手法と一般的な手法を大きく上回り、0.1mmペグで成功を維持する。
参考スコア（独自算出の注目度）: 10.687495099840659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Precision assembly requires sub-millimeter corrections in contact-rich "last-millimeter" regions where visual feedback fails due to occlusion from the end-effector and workpiece. We present ReTac-ACT (Reconstruction-enhanced Tactile ACT), a vision-tactile imitation learning policy that addresses this challenge through three synergistic mechanisms: (i) bidirectional cross-attention enabling reciprocal visuo-tactile feature enhancement before fusion, (ii) a proprioception-conditioned gating network that dynamically elevates tactile reliance when visual occlusion occurs, and (iii) a tactile reconstruction objective enforcing learning of manipulation-relevant contact information rather than generic visual textures. Evaluated on the standardized NIST Assembly Task Board M1 benchmark, ReTac-ACT achieves 90% peg-in-hole success, substantially outperforming vision-only and generalist baseline methods, and maintains 80% success at industrial-grade 0.1mm clearance. Ablation studies validate that each architectural component is indispensable. The ReTac-ACT codebase and a vision-tactile demonstration dataset covering various clearance levels with both visual and tactile features will be released to support reproducible research.
Abstract（参考訳）: 精密アセンブリでは、エンドエフェクタとワークピースの閉塞により視覚的なフィードバックが失敗する接触リッチな"ラストミリ"領域で、サブミリの補正が必要となる。 ReTac-ACT(Reconstruction-enhanced Tactile ACT)は,3つの相乗的メカニズムを通じて,この課題に対処する視覚触覚模倣学習政策である。一融合前の相互的ビジュオ触覚的特徴増強を可能にする双方向の相互注意二視覚的閉塞が発生したとき、触覚依存を動的に高める、受容条件付きゲーティングネットワーク三汎用的な視覚的テクスチャではなく、操作関連接触情報の学習を促す触覚再建の目的。標準化されたNISTアセンブリタスクボードM1ベンチマークに基づいて評価され、ReTac-ACTは90%のペグ・イン・ホールの成功を達成し、視覚のみおよびジェネリストのベースライン法を大幅に上回り、工業レベルの0.1mmクリアランスで80%の成功を維持している。アブレーション研究は、各アーキテクチャコンポーネントが必須であることを検証する。 ReTac-ACTコードベースと視覚と触覚の両方の機能を備えたさまざまなクリアランスレベルをカバーする視覚触覚のデモデータセットがリリースされ、再現可能な研究をサポートする。

関連論文リスト

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [60.609604885961716]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文参考訳（メタデータ） (2026-03-19T17:52:42Z)
Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation [7.104060092661104]
本稿では,バイスオ触覚融合のためのクロスモーダルトランス (CMT) を提案する。 CMTは、構造化された自己および横断的注意を通して触覚信号と手首カメラ観測を統合する。 TacSLベンチマークの実験では、対称性の正則化を持つCMTが96.59%の挿入成功率を達成した。
論文参考訳（メタデータ） (2026-02-14T09:19:48Z)
Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities [19.45726946555448]
触覚は視覚と言語に豊かで相補的な情報を提供し、ロボットはきめ細かい物体の性質を知覚することができる。既存の手法では、触覚、言語、視覚のモダリティ間の中間的コミュニケーションを完全に統合することができない。 TLV-CoReは,CLIPをベースとした触覚・言語・視覚協調表現学習手法である。
論文参考訳（メタデータ） (2025-11-14T17:34:20Z)
ConViTac: Aligning Visual-Tactile Fusion with Contrastive Representations [7.870120920732663]
本研究では,融合時の特徴のアライメントを高めるために,視覚触覚表現学習ネットワークであるConViTacを提案する。我々の重要な貢献はコントラストエンコーダ機構であり、コントラストエンコーダを利用して視覚的および触覚的な入力を統一された潜伏埋め込みに投影する。我々は,ConViTacが現在最先端の手法よりも現実的に優れていることを示すために,広範囲な実験を行った。
論文参考訳（メタデータ） (2025-06-25T18:43:35Z)
Towards Generalization of Tactile Image Generation: Reference-Free Evaluation in a Leakage-Free Setting [25.355424080824996]
触覚は人間の知覚に重要であり、コンピュータビジョン、ロボティクス、マルチモーダル学習の応用を支えている。触覚データは入手が困難でコストがかかることが多いため、合成触覚画像の生成は、実世界の測定を拡大するためのスケーラブルなソリューションを提供する。一般的なデータセットにおける重なり合うトレーニングとテストサンプルは、パフォーマンス指標を増大させ、触覚モデルの真の一般化可能性を見極めることを実証する。
論文参考訳（メタデータ） (2025-03-10T02:37:22Z)
Multimodal and Force-Matched Imitation Learning with a See-Through Visuotactile Sensor [14.492202828369127]
我々は、模倣学習(IL)の枠組みの中でマルチモーダル・ビゾタクタクタブル・センサを活用して、コンタクトリッチなタスクを実行する。本稿では,IL改善のための補完手法として,触覚力マッチングと学習モード切替という2つのアルゴリズム的貢献を紹介する。以上の結果から, 力の一致が平均政策成功率62.5%, ビズオタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタク
論文参考訳（メタデータ） (2023-11-02T14:02:42Z)
Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。 EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文参考訳（メタデータ） (2021-08-11T03:49:59Z)
Active 3D Shape Reconstruction from Vision and Touch [66.08432412497443]
人間は、視覚と触覚を共同で利用して、活発な物体探索を通じて世界の3D理解を構築する。 3次元形状の再構成では、最新の進歩はRGB画像、深度マップ、触覚読影などの限られた感覚データの静的データセットに依存している。 1)高空間分解能視覚に基づく触覚センサを応用した3次元物体のアクティブタッチに活用した触覚シミュレータ,2)触覚やビジュオクティビティルを先導するメッシュベースの3次元形状再構成モデル,3)触覚やビジュオのいずれかを用いたデータ駆動型ソリューションのセットからなるシステムを導入する。
論文参考訳（メタデータ） (2021-07-20T15:56:52Z)
Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文参考訳（メタデータ） (2020-12-28T02:37:03Z)
3D Shape Reconstruction from Vision and Touch [62.59044232597045]
3次元形状再構成では、視覚と触覚の相補的な融合はほとんど未解明のままである。本稿では,ロボットハンドと多数の3Dオブジェクトの相互作用から,触覚と視覚信号のシミュレーションデータセットを提案する。
論文参考訳（メタデータ） (2020-07-07T20:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。