論文の概要: Robot Sound Interpretation: Learning Visual-Audio Representations for
Voice-Controlled Robots
- arxiv url: http://arxiv.org/abs/2109.02823v1
- Date: Tue, 7 Sep 2021 02:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 23:15:26.777434
- Title: Robot Sound Interpretation: Learning Visual-Audio Representations for
Voice-Controlled Robots
- Title(参考訳): ロボット音声解釈:音声制御ロボットの視覚音声表現学習
- Authors: Peixin Chang, Shuijing Liu, Katherine Driggs-Campbell
- Abstract要約: 画像と音声コマンドを最小限の監督で関連付ける表現を学習する。
この表現を用いて、強化学習を用いてロボットタスクを学習する本質的な報酬関数を生成する。
提案手法は, 様々な音響タイプやロボット作業において, 従来の作業よりも優れていたことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by sensorimotor theory, we propose a novel pipeline for
voice-controlled robots. Previous work relies on explicit labels of sounds and
images as well as extrinsic reward functions. Not only do such approaches have
little resemblance to human sensorimotor development, but also require
hand-tuning rewards and extensive human labor. To address these problems, we
learn a representation that associates images and sound commands with minimal
supervision. Using this representation, we generate an intrinsic reward
function to learn robotic tasks with reinforcement learning. We demonstrate our
approach on three robot platforms, a TurtleBot3, a Kuka-IIWA arm, and a Kinova
Gen3 robot, which hear a command word, identify the associated target object,
and perform precise control to approach the target. We show that our method
outperforms previous work across various sound types and robotic tasks
empirically. We successfully deploy the policy learned in simulator to a
real-world Kinova Gen3.
- Abstract(参考訳): 本稿では,音声制御ロボットのための新しいパイプラインを提案する。
これまでの仕事は、音と画像の明示的なラベルと、極端な報酬関数に依存している。
このようなアプローチは、人間の感覚運動の発達にはほとんど似ていないだけでなく、手作業による報酬や広範な人間の労働も必要である。
これらの問題に対処するために、画像と音声コマンドを最小限の監督で関連付ける表現を学習する。
この表現を用いて、強化学習を用いてロボットタスクを学習する本質的な報酬関数を生成する。
我々は,TurtleBot3,Kuka-IIWAアーム,Kinova Gen3ロボットの3つのロボットプラットフォームに対して,コマンドワードを聴き,関連する対象を識別し,ターゲットに近づくための正確な制御を行う。
提案手法は, 様々な音響タイプやロボット作業において, 従来よりも優れていることを示す。
我々はシミュレータで学んだポリシーを現実世界のKinova Gen3に展開することに成功しました。
関連論文リスト
- Know your limits! Optimize the robot's behavior through self-awareness [11.021217430606042]
最近の人間ロボット模倣アルゴリズムは、高精度な人間の動きを追従することに焦点を当てている。
本稿では,ロボットが参照を模倣する際の動作を予測できるディープラーニングモデルを提案する。
我々のSAW(Self-AWare Model)は、転倒確率、基準運動への固執、滑らかさといった様々な基準に基づいて、潜在的なロボットの挙動をランク付けする。
論文 参考訳(メタデータ) (2024-09-16T14:14:58Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Knowledge-Driven Robot Program Synthesis from Human VR Demonstrations [16.321053835017942]
バーチャルリアリティ(VR)におけるヒューマンタスクの実演から実行可能なロボット制御プログラムを自動生成するシステムを提案する。
我々は、人間のVRデモを意味論的に解釈するために、常識知識とゲームエンジンに基づく物理を利用する。
ロボットショッピングアシスタントにおける力覚的フェッチ・アンド・プレイスという文脈でのアプローチを実証する。
論文 参考訳(メタデータ) (2023-06-05T09:37:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Signs of Language: Embodied Sign Language Fingerspelling Acquisition
from Demonstrations for Human-Robot Interaction [1.0166477175169308]
本稿では,ビデオ例からデキスタスモータの模倣を学習する手法を提案する。
まず,関節に1つのアクチュエータを備えたロボットハンドのURDFモデルを構築した。
トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。
論文 参考訳(メタデータ) (2022-09-12T10:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。