論文の概要: ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data
- arxiv url: http://arxiv.org/abs/2406.19464v1
- Date: Thu, 27 Jun 2024 18:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:51:19.771024
- Title: ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data
- Title(参考訳): ManiWAV: アプリ内オーディオ・ビジュアルデータからロボットの操作を学習する
- Authors: Zeyi Liu, Cheng Chi, Eric Cousineau, Naveen Kuppuswamy, Benjamin Burchfiel, Shuran Song,
- Abstract要約: 音声信号は、ロボットのインタラクションや接触によるオブジェクト特性に関する豊富な情報を提供する。
ManiWAVは、Wildの人間によるデモを収集する、'ear-in-hand'データ収集装置である。
本システムでは,人間の実演の見当たらないものに一般化できることが示される。
- 参考スコア(独自算出の注目度): 28.36623343236893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio signals provide rich information for the robot interaction and object properties through contact. These information can surprisingly ease the learning of contact-rich robot manipulation skills, especially when the visual information alone is ambiguous or incomplete. However, the usage of audio data in robot manipulation has been constrained to teleoperated demonstrations collected by either attaching a microphone to the robot or object, which significantly limits its usage in robot learning pipelines. In this work, we introduce ManiWAV: an 'ear-in-hand' data collection device to collect in-the-wild human demonstrations with synchronous audio and visual feedback, and a corresponding policy interface to learn robot manipulation policy directly from the demonstrations. We demonstrate the capabilities of our system through four contact-rich manipulation tasks that require either passively sensing the contact events and modes, or actively sensing the object surface materials and states. In addition, we show that our system can generalize to unseen in-the-wild environments, by learning from diverse in-the-wild human demonstrations. Project website: https://mani-wav.github.io/
- Abstract(参考訳): 音声信号は、ロボットのインタラクションや接触によるオブジェクト特性に関する豊富な情報を提供する。
これらの情報は、特に視覚情報が曖昧で不完全である場合に、接触に富むロボット操作スキルの習得を驚くほど容易にする。
しかし、ロボット操作における音声データの使用は、マイクをロボットまたは物体に取り付けることで収集された遠隔操作デモに制限されており、ロボット学習パイプラインにおける使用を著しく制限している。
そこで本研究では,同期音声と視覚フィードバックによる実演の収集を行う「アー・イン・ハンド(ear-in-hand)」データ収集装置「ManiWAV」と,実演から直接ロボット操作ポリシーを学習するための対応するポリシーインターフェースについて紹介する。
我々は,接触イベントやモードを受動的に感知するか,物体表面物質や状態を積極的に感知する必要がある4つの接触リッチな操作タスクを通じて,システムの性能を実証する。
また,本システムでは,多種多様な人体実験から学習することで,未確認環境への一般化が可能であることを示す。
プロジェクトウェブサイト:https://mani-wav.github.io/
関連論文リスト
- Open-TeleVision: Teleoperation with Immersive Active Visual Feedback [17.505318269362512]
Open-TeleVisionは、オペレーターが立体的にロボットの周囲を積極的に知覚することを可能にする。
このシステムは操作者の腕と手の動きをロボットに反映し、没入感のある体験を作り出す。
本システムの有効性は,長期的かつ正確な4つの課題に対して,データ収集と模倣学習ポリシーの訓練によって検証する。
論文 参考訳(メタデータ) (2024-07-01T17:55:35Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - From One Hand to Multiple Hands: Imitation Learning for Dexterous
Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。
我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。
データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2022-04-26T17:59:51Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。