論文の概要: EchoPT: A Pretrained Transformer Architecture that Predicts 2D In-Air Sonar Images for Mobile Robotics
- arxiv url: http://arxiv.org/abs/2405.12573v1
- Date: Tue, 21 May 2024 08:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:58:57.178700
- Title: EchoPT: A Pretrained Transformer Architecture that Predicts 2D In-Air Sonar Images for Mobile Robotics
- Title(参考訳): EchoPT: モバイルロボティクスのための空気中の2Dソナー画像を予測する事前訓練型トランスフォーマーアーキテクチャ
- Authors: Jan Steckel, Wouter Jansen, Nico Huebel,
- Abstract要約: 本稿では,従来のセンサデータとロボットのエゴモーション情報から2次元ソナー画像を予測するための事前学習型トランスフォーマーアーキテクチャであるEchoPTを紹介する。
本研究では,EchoPTモデルの提示と評価に加えて,この予測知覚アプローチの有効性を2つのロボットタスクで実証する。
- 参考スコア(独自算出の注目度): 4.103476395113937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The predictive brain hypothesis suggests that perception can be interpreted as the process of minimizing the error between predicted perception tokens generated by an internal world model and actual sensory input tokens. When implementing working examples of this hypothesis in the context of in-air sonar, significant difficulties arise due to the sparse nature of the reflection model that governs ultrasonic sensing. Despite these challenges, creating consistent world models using sonar data is crucial for implementing predictive processing of ultrasound data in robotics. In an effort to enable robust robot behavior using ultrasound as the sole exteroceptive sensor modality, this paper introduces EchoPT, a pretrained transformer architecture designed to predict 2D sonar images from previous sensory data and robot ego-motion information. We detail the transformer architecture that drives EchoPT and compare the performance of our model to several state-of-the-art techniques. In addition to presenting and evaluating our EchoPT model, we demonstrate the effectiveness of this predictive perception approach in two robotic tasks.
- Abstract(参考訳): 予測脳仮説は、知覚は、内部世界モデルによって生成された予測知覚トークンと実際の知覚入力トークンとの誤差を最小化する過程として解釈できることを示唆している。
空気中ソナーの文脈でこの仮説の動作例を実装する際には、超音波センシングを管理する反射モデルのスパースな性質により重大な困難が生じる。
これらの課題にもかかわらず、超音波データの予測処理を実装するには、ソナーデータを用いた一貫した世界モデルの作成が不可欠である。
本稿では,超音波を単独の知覚センサモダリティとする頑健なロボット動作を実現するために,従来のセンサデータとロボットのエゴモーション情報から2次元ソナー画像を予測するための事前学習型トランスフォーマアーキテクチャであるEchoPTを紹介する。
本稿では,EchoPTを駆動するトランスフォーマーアーキテクチャについて詳述し,その性能をいくつかの最先端技術と比較する。
本研究では,EchoPTモデルの提示と評価に加えて,この予測知覚アプローチの有効性を2つのロボットタスクで実証する。
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。
提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。
我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文 参考訳(メタデータ) (2024-07-01T16:08:37Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative
Diffusion Models [102.13968267347553]
本稿では,様々なタスクにおいて優れたソフトロボット形態を生成する物理拡張拡散モデルであるDiffuseBotを提案する。
我々は、その能力とともに、シミュレーションされた、そして製造された様々なロボットを紹介します。
論文 参考訳(メタデータ) (2023-11-28T18:58:48Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Combining Vision and Tactile Sensation for Video Prediction [0.0]
本研究では,触覚フィードバックを映像予測モデルに組み込んだ物理的ロボットインタラクションの効果について検討する。
磁気ベースの触覚センサを用いて教師なし学習を行うロボットプッシュの2つの新しいデータセットを紹介した。
以上の結果から,触覚フィードバックを映像予測モデルに組み込むことにより,シーン予測精度が向上し,エージェントの身体的相互作用に対する認識が向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-21T18:02:15Z) - STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a
Non-Autoregressive Transformer for Robot Following Ahead [8.227864212055035]
観測された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発した。
本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。
我々のモデルは、最先端の手法に関して、テスト精度と速度の観点からロボット応用に適している。
論文 参考訳(メタデータ) (2022-09-15T20:27:54Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。