論文の概要: Sample-efficient Unsupervised Policy Cloning from Ensemble Self-supervised Labeled Videos
- arxiv url: http://arxiv.org/abs/2412.10778v1
- Date: Sat, 14 Dec 2024 10:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:56.594263
- Title: Sample-efficient Unsupervised Policy Cloning from Ensemble Self-supervised Labeled Videos
- Title(参考訳): 自己教師付きラベリング映像からのサンプル効率非教師付きポリシークローン
- Authors: Xin Liu, Yaran Chen,
- Abstract要約: 現在の高度な政策学習手法は、十分な情報を提供する際に専門家レベルの戦略を開発する能力を示している。
人間は、他の監督がなければ、簡単にアクセスできるインターネット動画を模倣することで、数回の試行錯誤で効率的にスキルを習得することができる。
本稿では,アンサンブル自己監督ラベル付きビデオから,この効率的な監視学習プロセスを機械に再現させようとする。
- 参考スコア(独自算出の注目度): 4.6949816706255065
- License:
- Abstract: Current advanced policy learning methodologies have demonstrated the ability to develop expert-level strategies when provided enough information. However, their requirements, including task-specific rewards, expert-labeled trajectories, and huge environmental interactions, can be expensive or even unavailable in many scenarios. In contrast, humans can efficiently acquire skills within a few trials and errors by imitating easily accessible internet video, in the absence of any other supervision. In this paper, we try to let machines replicate this efficient watching-and-learning process through Unsupervised Policy from Ensemble Self-supervised labeled Videos (UPESV), a novel framework to efficiently learn policies from videos without any other expert supervision. UPESV trains a video labeling model to infer the expert actions in expert videos, through several organically combined self-supervised tasks. Each task performs its own duties, and they together enable the model to make full use of both expert videos and reward-free interactions for advanced dynamics understanding and robust prediction. Simultaneously, UPESV clones a policy from the labeled expert videos, in turn collecting environmental interactions for self-supervised tasks. After a sample-efficient and unsupervised (i.e., reward-free) training process, an advanced video-imitated policy is obtained. Extensive experiments in sixteen challenging procedurally-generated environments demonstrate that the proposed UPESV achieves state-of-the-art few-shot policy learning (outperforming five current advanced baselines on 12/16 tasks) without exposure to any other supervision except videos. Detailed analysis is also provided, verifying the necessity of each self-supervised task employed in UPESV.
- Abstract(参考訳): 現在の高度な政策学習手法は、十分な情報を提供する際に専門家レベルの戦略を開発する能力を示している。
しかしながら、タスク固有の報酬、専門家ラベル付き軌道、巨大な環境相互作用を含む彼らの要求は、多くのシナリオで高価または不可能である。
対照的に、人間は他の監督がなければ、簡単にアクセス可能なインターネット動画を模倣することで、数回の試行錯誤で効率的にスキルを習得することができる。
本稿では,他の専門家の監督なしにビデオから効率的にポリシーを学習する新しいフレームワークであるUnsupervised Policy from Ensemble Self-supervised labeled Videos (UPESV) を通じて,この効率的な監視学習プロセスを機械に再現させようとする。
UPESVはビデオラベリングモデルをトレーニングし、専門家のビデオで専門家の行動を推測する。
それぞれのタスクが独自の責務を担い、専門家のビデオと、高度なダイナミクスの理解と堅牢な予測のために、報酬なしのインタラクションの両方をフルに活用することができる。
同時に、PESVはラベル付きエキスパートビデオからポリシーをクローンし、自己管理タスクのための環境相互作用を収集する。
サンプル効率で教師なし(報酬のない)トレーニングプロセスの後、先進的なビデオ模倣ポリシーを得る。
16のプロシージャ生成環境における広範囲な実験により、提案されたUPESVは、ビデオ以外のいかなる監督にも触れずに、最先端の数発のポリシー学習(現在の12/16タスクの5つの高度なベースラインを上回る)を達成できることを示した。
詳細な分析も提供され、PESVで使用される各自己監督タスクの必要性が検証される。
関連論文リスト
- Improving Generalization in Visual Reasoning via Self-Ensemble [0.0]
本稿では,パラメータを更新せずにモデルの一般化と視覚的推論を改善する手法であるセルフアンサンブルを提案する。
私たちの重要な洞察は、LVLM自体が他のLVLMを必要とせずにアンサンブルできるということです。
論文 参考訳(メタデータ) (2024-10-28T10:04:40Z) - Multi-Agent Generative Adversarial Interactive Self-Imitation Learning
for AUV Formation Control and Obstacle Avoidance [10.834762022842353]
本稿では,MAGAILアルゴリズムをベースとして,マルチエージェント・ジェネレーティブな対話型自己アニメーション学習(MAGAISIL)を提案する。
マルチAUV生成制御と障害物回避タスクによる実験結果から,MAGAISILを用いて訓練したAUVが,提案した準最適専門家による実験を超越できることが示唆された。
論文 参考訳(メタデータ) (2024-01-21T03:01:00Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - RoboCLIP: One Demonstration is Enough to Learn Robot Policies [72.24495908759967]
RoboCLIPは、オンラインの模倣学習手法であり、ビデオデモの形式で1つのデモンストレーションまたはタスクのテキスト記述を使用して報酬を生成する。
RoboCLIPは、報酬生成のタスクを解決した人間のビデオや、同じデモやデプロイメントドメインを持つ必要を回避するなど、ドメイン外のデモも利用することができる。
論文 参考訳(メタデータ) (2023-10-11T21:10:21Z) - AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn [25.510696745075688]
我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-14T17:12:56Z) - Domain-aware Self-supervised Pre-training for Label-Efficient Meme
Analysis [29.888546964947537]
ミーム分析のための2つの自己教師付き事前学習手法を提案する。
まず,事前学習中に,既成のマルチモーダルヘイト音声データを用いる。
第二に、複数の専門用語タスクを組み込んだ自己教師型学習を行う。
論文 参考訳(メタデータ) (2022-09-29T10:00:29Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Unsupervised Discovery of Actions in Instructional Videos [86.77350242461803]
我々は,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしのアプローチを提案する。
本稿では,映像の時間的セグメンテーションのための逐次自己回帰モデルを提案する。
我々の手法は、最先端の教師なし手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-06-28T14:05:01Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Learning a Weakly-Supervised Video Actor-Action Segmentation Model with
a Wise Selection [97.98805233539633]
弱教師付きビデオアクターアクションセグメンテーション(VAAS)について検討する。
トレーニングサンプルのワイズ選択とモデル評価基準(WS2)を併用した汎用弱弱化フレームワークを提案する。
WS2は、弱い教師付きVOSとVAASタスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-29T21:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。