論文の概要: Style-transfer based Speech and Audio-visual Scene Understanding for
Robot Action Sequence Acquisition from Videos
- arxiv url: http://arxiv.org/abs/2306.15644v1
- Date: Tue, 27 Jun 2023 17:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:22:56.020130
- Title: Style-transfer based Speech and Audio-visual Scene Understanding for
Robot Action Sequence Acquisition from Videos
- Title(参考訳): 映像からのロボット行動系列獲得のためのスタイル伝達に基づく音声と音声の視覚的シーン理解
- Authors: Chiori Hori, Puyuan Peng, David Harwath, Xinyu Liu, Kei Ota, Siddarth
Jain, Radu Corcodel, Devesh Jha, Diego Romeres, Jonathan Le Roux
- Abstract要約: 本稿では,教示ビデオからロボット行動系列を生成する手法を提案する。
そこで我々は,ロボットが調理ビデオから取得したシーケンスを実行する,様々な調理動作を行うシステムを構築した。
- 参考スコア(独自算出の注目度): 40.012813353904875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To realize human-robot collaboration, robots need to execute actions for new
tasks according to human instructions given finite prior knowledge. Human
experts can share their knowledge of how to perform a task with a robot through
multi-modal instructions in their demonstrations, showing a sequence of
short-horizon steps to achieve a long-horizon goal. This paper introduces a
method for robot action sequence generation from instruction videos using (1)
an audio-visual Transformer that converts audio-visual features and instruction
speech to a sequence of robot actions called dynamic movement primitives (DMPs)
and (2) style-transfer-based training that employs multi-task learning with
video captioning and weakly-supervised learning with a semantic classifier to
exploit unpaired video-action data. We built a system that accomplishes various
cooking actions, where an arm robot executes a DMP sequence acquired from a
cooking video using the audio-visual Transformer. Experiments with
Epic-Kitchen-100, YouCookII, QuerYD, and in-house instruction video datasets
show that the proposed method improves the quality of DMP sequences by 2.3
times the METEOR score obtained with a baseline video-to-action Transformer.
The model achieved 32% of the task success rate with the task knowledge of the
object.
- Abstract(参考訳): ロボットとロボットの協調を実現するためには,ロボットは人間の指示に従って,事前知識を限定した行動を実行する必要がある。
人間の専門家は、デモでマルチモーダルな指示を通じてロボットとタスクを実行する方法に関する知識を共有し、長いホリゾン目標を達成するための一連の短いホリゾンステップを示すことができる。
本稿では,(1)音声視覚特徴と指示音声を動的移動プリミティブ(DMP)と呼ばれる一連のロボット動作に変換する音声視覚変換器と,(2)ビデオキャプションによるマルチタスク学習と,意味分類器による弱教師付き学習を併用して,不用意な映像行動データを利用するスタイルトランスファーベーストレーニングを提案する。
そこで我々は,ロボットが音声視覚変換器を用いて調理ビデオから取得したDMPシーケンスを実行する,様々な調理動作を行うシステムを構築した。
epic-kitchen-100,youcookii,queryd,in-houseのインストラクションビデオデータセットを用いた実験により,提案手法は,ベースライン・ビデオ・トゥ・アクショントランスフォーマによって得られた流星スコアの2.3倍のdmpシーケンスの品質向上を実現した。
モデルは、オブジェクトのタスク知識によって、タスクの成功率の32%を達成した。
関連論文リスト
- Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Perceive, Represent, Generate: Translating Multimodal Information to
Robotic Motion Trajectories [1.0499611180329804]
知覚表現生成(英: Perceive-Represent-Generate、PRG)は、ロボットが実行する動作の適切なシーケンスに異なるモードの知覚情報をマッピングするフレームワークである。
我々は,ロボットが異なる知覚的モーダル(画像,音など)を通して単語を入力として受け取り,対応する運動軌跡を生成するという,新しいロボット手書き作業の文脈でパイプラインを評価した。
論文 参考訳(メタデータ) (2022-04-06T19:31:18Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Understanding Action Sequences based on Video Captioning for
Learning-from-Observation [14.467714234267307]
本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。
分割は、人間の日常行動と対象中心の顔接触遷移を一致させる手速の局所的最小点に基づいて行われる。
人間の意図を正しく理解し,動画内の意図しない動作を無視するために,動作記述と言語指示を一致させる。
論文 参考訳(メタデータ) (2020-12-09T05:22:01Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Caption Generation of Robot Behaviors based on Unsupervised Learning of
Action Segments [10.356412004005767]
ロボットの行動シーケンスとその自然言語キャプションをブリッジすることは、人間のアシストロボットの説明可能性を高める重要な課題である。
本稿では,人間支援ロボットの動作を記述した自然言語キャプションを生成するシステムを提案する。
論文 参考訳(メタデータ) (2020-03-23T03:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。