論文の概要: Transferable Tactile Transformers for Representation Learning Across Diverse Sensors and Tasks
- arxiv url: http://arxiv.org/abs/2406.13640v3
- Date: Sun, 06 Oct 2024 16:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:27.287661
- Title: Transferable Tactile Transformers for Representation Learning Across Diverse Sensors and Tasks
- Title(参考訳): 異種センサとタスク間の表現学習のための伝達可能な触覚変換器
- Authors: Jialiang Zhao, Yuxiang Ma, Lirui Wang, Edward H. Adelson,
- Abstract要約: T3は、マルチセンサーとマルチタスクにまたがる触覚表現学習のためのフレームワークである。
FoTaで事前訓練したT3は、特定のセンサとタスクのペアリングにおいてゼロショット転送性を達成した。
また、T3は長距離接点リッチな操作のための触覚エンコーダとしても有効である。
- 参考スコア(独自算出の注目度): 6.742250322226066
- License:
- Abstract: This paper presents T3: Transferable Tactile Transformers, a framework for tactile representation learning that scales across multi-sensors and multi-tasks. T3 is designed to overcome the contemporary issue that camera-based tactile sensing is extremely heterogeneous, i.e. sensors are built into different form factors, and existing datasets were collected for disparate tasks. T3 captures the shared latent information across different sensor-task pairings by constructing a shared trunk transformer with sensor-specific encoders and task-specific decoders. The pre-training of T3 utilizes a novel Foundation Tactile (FoTa) dataset, which is aggregated from several open-sourced datasets and it contains over 3 million data points gathered from 13 sensors and 11 tasks. FoTa is the largest and most diverse dataset in tactile sensing to date and it is made publicly available in a unified format. Across various sensors and tasks, experiments show that T3 pre-trained with FoTa achieved zero-shot transferability in certain sensor-task pairings, can be further fine-tuned with small amounts of domain-specific data, and its performance scales with bigger network sizes. T3 is also effective as a tactile encoder for long horizon contact-rich manipulation. Results from sub-millimeter multi-pin electronics insertion tasks show that T3 achieved a task success rate 25% higher than that of policies trained with tactile encoders trained from scratch, or 53% higher than without tactile sensing. Data, code, and model checkpoints are open-sourced at https://t3.alanz.info
- Abstract(参考訳): 本稿では,マルチセンサとマルチタスクにまたがる触覚表現学習フレームワークであるTransferable Tactile Transformersについて述べる。
T3は、カメラベースの触覚センシングは極めて異種であり、センサーは異なるフォームファクタに構築され、既存のデータセットは異なるタスクのために収集された。
T3は、センサ固有のエンコーダとタスク固有のデコーダを備えた共有トランクトランスを構築することで、センサとタスクのペアリング間で共有潜在情報をキャプチャする。
T3の事前トレーニングでは、オープンソースのデータセットから収集された新しいFoundation Tactile(FoTa)データセットを使用しており、13のセンサーと11のタスクから収集された300万以上のデータポイントが含まれている。
FoTaは、これまでで最大の、最も多様な触覚センシングデータセットであり、統一されたフォーマットで公開されています。
様々なセンサやタスクにわたって、FoTaで事前訓練されたT3は、特定のセンサーとタスクのペアリングにおいてゼロショット転送性を実現し、少数のドメイン固有データと、ネットワークサイズを大きくしたパフォーマンススケールでさらに微調整できることが実験によって示されている。
また、T3は長距離接点リッチな操作のための触覚エンコーダとしても有効である。
サブミリ以下のマルチピン電子挿入タスクの結果、T3は触覚センサーを使わずにトレーニングした触覚エンコーダで訓練したポリシーよりも25%高いタスク成功率を示した。
データ、コード、モデルチェックポイントはhttps://t3.alanz.infoでオープンソース化される
関連論文リスト
- Transferring Tactile Data Across Sensors [1.5566524830295307]
本稿では,触覚センサ間のデータ変換手法について紹介する。
我々は、BioTac信号をDIGITセンサーに変換することで、アプローチを実証する。
筆者らのフレームワークは,信号データを対応する3次元変形メッシュに変換する第2のステップと,これら3次元変形メッシュを1つのセンサから別のセンサへ変換する第3のステップと,出力画像を生成する第3のステップで構成されている。
論文 参考訳(メタデータ) (2024-10-18T09:15:47Z) - Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - FedOpenHAR: Federated Multi-Task Transfer Learning for Sensor-Based
Human Activity Recognition [0.0]
本稿では,センサを用いた人間行動認識とデバイス位置識別の両課題に対して,フェデレート・トランスファー・ラーニングをマルチタスク方式で検討する。
OpenHARフレームワークは10個の小さなデータセットを含むモデルをトレーニングするために使用される。
タスク固有でパーソナライズされたフェデレーションモデルを用いたトランスファーラーニングとトレーニングにより、各クライアントを個別に訓練し、完全集中型アプローチよりも高い精度で学習した。
論文 参考訳(メタデータ) (2023-11-13T21:31:07Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。
本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。
単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:54:13Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - WaveGlove: Transformer-based hand gesture recognition using multiple
inertial sensors [0.0]
近年、慣性データに基づく手のジェスチャー認識(HGR)が大幅に増加しています。
本研究では,複数の慣性センサを利用するメリットを検討する。
論文 参考訳(メタデータ) (2021-05-04T20:50:53Z) - OmniTact: A Multi-Directional High Resolution Touch Sensor [109.28703530853542]
既存の触覚センサーは、平らで、感度が小さいか、低解像度の信号のみを提供する。
我々は,多方向高解像度触覚センサOmniTactを紹介する。
我々は,ロボット制御の課題に対して,OmniTactの能力を評価する。
論文 参考訳(メタデータ) (2020-03-16T01:31:29Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。