論文の概要: Self-Supervised Multisensory Pretraining for Contact-Rich Robot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.14427v1
- Date: Tue, 18 Nov 2025 12:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.10657
- Title: Self-Supervised Multisensory Pretraining for Contact-Rich Robot Reinforcement Learning
- Title(参考訳): コンタクトリッチロボット強化学習のための自己監督型マルチ感覚事前学習
- Authors: Rickmer Krohn, Vignesh Prasad, Gabriele Tiboni, Georgia Chalvatzaki,
- Abstract要約: MultiSensory Dynamic Pretraining (MSDP)は、タスク指向のポリシー学習に適した表現型多感覚表現を学習するためのフレームワークである。
MSDPはマスク付きオートエンコーディングに基づいており、センサ埋め込みのサブセットのみからの多感覚観測を再構成することでトランスフォーマーベースのエンコーダを訓練する。
下流の政策学習では,凍結した埋め込みから動的にタスク固有の特徴を抽出するクロスアテンション機構が導入された。
- 参考スコア(独自算出の注目度): 10.782934021703783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective contact-rich manipulation requires robots to synergistically leverage vision, force, and proprioception. However, Reinforcement Learning agents struggle to learn in such multisensory settings, especially amidst sensory noise and dynamic changes. We propose MultiSensory Dynamic Pretraining (MSDP), a novel framework for learning expressive multisensory representations tailored for task-oriented policy learning. MSDP is based on masked autoencoding and trains a transformer-based encoder by reconstructing multisensory observations from only a subset of sensor embeddings, leading to cross-modal prediction and sensor fusion. For downstream policy learning, we introduce a novel asymmetric architecture, where a cross-attention mechanism allows the critic to extract dynamic, task-specific features from the frozen embeddings, while the actor receives a stable pooled representation to guide its actions. Our method demonstrates accelerated learning and robust performance under diverse perturbations, including sensor noise, and changes in object dynamics. Evaluations in multiple challenging, contact-rich robot manipulation tasks in simulation and the real world showcase the effectiveness of MSDP. Our approach exhibits strong robustness to perturbations and achieves high success rates on the real robot with as few as 6,000 online interactions, offering a simple yet powerful solution for complex multisensory robotic control.
- Abstract(参考訳): 効果的なコンタクトリッチな操作では、ロボットは視覚、力、プロプレセプションを相乗的に活用する必要がある。
しかし、強化学習エージェントは、特に知覚ノイズや動的変化の中で、このような多感覚的な環境での学習に苦慮している。
タスク指向政策学習に適した表現型多感覚表現を学習するための新しいフレームワークであるMultiSensory Dynamic Pretraining (MSDP)を提案する。
MSDPはマスク付きオートエンコーディングに基づいており、センサ埋め込みのサブセットのみからの多感覚観測を再構成することでトランスフォーマーベースのエンコーダを訓練し、クロスモーダル予測とセンサ融合をもたらす。
下流の政策学習では,アクターが安定したプール表現を受け取り,その動作をガイドする一方で,批判者が凍結した埋め込みから動的にタスク固有の特徴を抽出することができる,新しい非対称アーキテクチャを導入する。
本手法は,センサノイズや物体の動的変化など,多様な摂動条件下での学習の高速化と堅牢性を示す。
シミュレーションおよび実世界における複数の困難で接触に富んだロボット操作タスクの評価は、MSDPの有効性を示す。
提案手法は摂動に対する強い頑丈さを示し, 6000以上のオンラインインタラクションを持つ実ロボットに対して高い成功率を達成し, 複雑な多感覚ロボット制御のための単純かつ強力なソリューションを提供する。
関連論文リスト
- Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-09-27T19:43:04Z) - Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip
Perception of Mobile Manipulation Robots [22.63980025871784]
提案フレームワークは,RGBや深度カメラ,マイク,力トルクセンサなど,さまざまなロボットセンサから収集した異種データストリームを統合する。
統合されたデータは、ディープオートエンコーダを訓練して、通常の状態を示す多感覚データの潜在表現を構築するために使用される。
次に、トレーニングされたエンコーダの潜伏値と再構成された入力データの潜伏値との差によって測定された誤差スコアによって異常を識別することができる。
論文 参考訳(メタデータ) (2024-03-06T09:15:53Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - RObotic MAnipulation Network (ROMAN) -- Hybrid Hierarchical Learning for Solving Complex Sequential Tasks [45.3746654854308]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Multi-Robot Collaborative Perception with Graph Neural Networks [6.383576104583731]
汎用グラフニューラルネットワーク(GNN)を提案する。
提案手法は,単眼深度推定やセマンティックセグメンテーションなどの多視点視覚認識問題に対処できることを示す。
論文 参考訳(メタデータ) (2022-01-05T18:47:07Z) - Transformer-based deep imitation learning for dual-arm robot manipulation [4.717749411286867]
デュアルアームの操作設定では、追加のロボットマニピュレータによって引き起こされる状態次元の増加が注意をそらす。
本稿では、逐次入力における要素間の依存関係を計算し、重要な要素に焦点をあてる自己認識機構を用いてこの問題に対処する。
自己注意型アーキテクチャの変種であるTransformerは、実世界のデュアルアーム操作タスクを解決するために、深層模倣学習に適用される。
論文 参考訳(メタデータ) (2021-08-01T07:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。