論文の概要: SARL: Spatially-Aware Self-Supervised Representation Learning for Visuo-Tactile Perception
- arxiv url: http://arxiv.org/abs/2512.01908v1
- Date: Mon, 01 Dec 2025 17:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.990411
- Title: SARL: Spatially-Aware Self-Supervised Representation Learning for Visuo-Tactile Perception
- Title(参考訳): SARL:視覚触覚知覚のための空間認識型自己スーパービジョン表現学習
- Authors: Gurmeher Khurana, Lan Wei, Dandan Zhang,
- Abstract要約: 接触に富んだロボット操作は、局所幾何学を符号化する表現を必要とする。
現代のビジュオ触覚センサーは、両方のモダリティを単一の融合画像でキャプチャする。
ほとんどの自己教師付き学習フレームワークは、機能マップをグローバルベクターに圧縮する。
- 参考スコア(独自算出の注目度): 6.975054201075641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contact-rich robotic manipulation requires representations that encode local geometry. Vision provides global context but lacks direct measurements of properties such as texture and hardness, whereas touch supplies these cues. Modern visuo-tactile sensors capture both modalities in a single fused image, yielding intrinsically aligned inputs that are well suited to manipulation tasks requiring visual and tactile information. Most self-supervised learning (SSL) frameworks, however, compress feature maps into a global vector, discarding spatial structure and misaligning with the needs of manipulation. To address this, we propose SARL, a spatially-aware SSL framework that augments the Bootstrap Your Own Latent (BYOL) architecture with three map-level objectives, including Saliency Alignment (SAL), Patch-Prototype Distribution Alignment (PPDA), and Region Affinity Matching (RAM), to keep attentional focus, part composition, and geometric relations consistent across views. These losses act on intermediate feature maps, complementing the global objective. SARL consistently outperforms nine SSL baselines across six downstream tasks with fused visual-tactile data. On the geometry-sensitive edge-pose regression task, SARL achieves a Mean Absolute Error (MAE) of 0.3955, a 30% relative improvement over the next-best SSL method (0.5682 MAE) and approaching the supervised upper bound. These findings indicate that, for fused visual-tactile data, the most effective signal is structured spatial equivariance, in which features vary predictably with object geometry, which enables more capable robotic perception.
- Abstract(参考訳): 接触に富んだロボット操作は、局所幾何学を符号化する表現を必要とする。
視覚はグローバルな文脈を提供するが、テクスチャや硬さなどの特性を直接測定する能力はない。
現代のビジュオ触覚センサーは、両方のモダリティを単一の融合画像で捉え、視覚情報と触覚情報を必要とするタスクの操作に適した、本質的に整列した入力を与える。
しかし、ほとんどの自己教師付き学習(SSL)フレームワークは、機能マップをグローバルベクターに圧縮し、空間構造を破棄し、操作の必要性を誤る。
この問題を解決するために、SARLは、SAL(Saliency Alignment)、PPDA(Patch-Prototype Distribution Alignment)、RAM(Regional Affinity Matching)という3つのマップレベルの目的を持つBootstrap Your Own Latent(BYOL)アーキテクチャを拡張した空間対応SSLフレームワークである。
これらの損失は中間的特徴写像に作用し、世界的目的を補完する。
SARLは、6つの下流タスクで9つのSSLベースラインを、融合した視覚触覚データで一貫して上回る。
幾何感応性エッジ配置回帰タスクにおいて、SARLは平均絶対誤差(MAE)が0.3955であり、次の最良SSL法(0.5682 MAE)よりも30%改善され、監督された上界に近づいた。
これらの結果は、融合した視覚触覚データにおいて、最も効果的な信号は空間的均等な構造であり、その特徴が物体形状と予測可能であり、より有能なロボット知覚を可能にすることを示唆している。
関連論文リスト
- SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning [93.19037653970622]
本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
論文 参考訳(メタデータ) (2025-10-31T16:30:08Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds [8.645078288584305]
PSA-SSLは,オブジェクトのポーズやサイズを認識した特徴を学習するクラウドSSLの新たな拡張である。
提案手法は,3次元セマンティックセグメンテーションと3次元オブジェクト検出において,最先端のSSL手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-18T05:17:06Z) - SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning [17.29563451509921]
SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。
本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
論文 参考訳(メタデータ) (2024-12-20T05:20:10Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version) [5.467140383171385]
ロボット制御のための強化学習(RL)は通常、環境状態の詳細な表現を必要とする。
空間オートエンコーダ(SAE)のようなキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的な手法である。
論文 参考訳(メタデータ) (2023-12-01T13:56:28Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Learning Where to Learn in Cross-View Self-Supervised Learning [54.14989750044489]
自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。
現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。
本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。