論文の概要: Understanding Action Sequences based on Video Captioning for
Learning-from-Observation
- arxiv url: http://arxiv.org/abs/2101.05061v1
- Date: Wed, 9 Dec 2020 05:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:53:16.744384
- Title: Understanding Action Sequences based on Video Captioning for
Learning-from-Observation
- Title(参考訳): 観察からの学習のためのビデオキャプションに基づく行動系列の理解
- Authors: Iori Yanokura, Naoki Wake, Kazuhiro Sasabuchi, Katsushi Ikeuchi,
Masayuki Inaba
- Abstract要約: 本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。
分割は、人間の日常行動と対象中心の顔接触遷移を一致させる手速の局所的最小点に基づいて行われる。
人間の意図を正しく理解し,動画内の意図しない動作を無視するために,動作記述と言語指示を一致させる。
- 参考スコア(独自算出の注目度): 14.467714234267307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning actions from human demonstration video is promising for intelligent
robotic systems. Extracting the exact section and re-observing the extracted
video section in detail is important for imitating complex skills because human
motions give valuable hints for robots. However, the general video
understanding methods focus more on the understanding of the full frame,lacking
consideration on extracting accurate sections and aligning them with the
human's intent. We propose a Learning-from-Observation framework that splits
and understands a video of a human demonstration with verbal instructions to
extract accurate action sequences. The splitting is done based on local minimum
points of the hand velocity, which align human daily-life actions with
object-centered face contact transitions required for generating robot motion.
Then, we extract a motion description on the split videos using video
captioning techniques that are trained from our new daily-life action video
dataset. Finally, we match the motion descriptions with the verbal instructions
to understand the correct human intent and ignore the unintended actions inside
the video. We evaluate the validity of hand velocity-based video splitting and
demonstrate that it is effective. The experimental results on our new video
captioning dataset focusing on daily-life human actions demonstrate the
effectiveness of the proposed method. The source code, trained models, and the
dataset will be made available.
- Abstract(参考訳): 人間のデモビデオからの学習アクションは、インテリジェントなロボットシステムにとって有望である。
人間の動きがロボットに貴重なヒントを与えるため、正確なセクションを抽出し、抽出したビデオセクションを詳細に再保存することは複雑なスキルを模倣するために重要である。
しかし,一般的な映像理解手法では,全体像の理解が重視され,正確な部分の抽出や人間の意図との整合性に配慮が欠如している。
本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。
分割は、人間の日常行動とロボットの動きを生成するのに必要な物体中心の顔接触遷移を一致させる手の動きの局所的最小点に基づいて行われる。
次に,我々の新しい日常行動ビデオデータセットから学習した映像キャプション技術を用いて,分割映像の動作記述を抽出する。
最後に,人間の意図を正しく理解し,映像内の意図しない動作を無視するために,動作記述と言語指示を一致させる。
手の速度に基づく動画分割の有効性を評価し,有効性を示す。
生活行動に着目した新しい映像キャプションデータセットの実験結果から,提案手法の有効性が示された。
ソースコード、トレーニングされたモデル、データセットが利用可能になる。
関連論文リスト
- MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - Learning by Watching: Physical Imitation of Manipulation Skills from
Human Videos [28.712673809577076]
本稿では,ロボット操作作業のための人間ビデオからの物理模倣手法を提案する。
人間のビデオをロボットドメインに翻訳し,教師なしのキーポイント検出を行う知覚モジュールを設計した。
リーチ、プッシュ、スライディング、コーヒー製造、引き出しの閉鎖を含む5つのロボット操作タスクに対するアプローチの有効性を評価します。
論文 参考訳(メタデータ) (2021-01-18T18:50:32Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。