論文の概要: Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets
- arxiv url: http://arxiv.org/abs/2211.13337v1
- Date: Wed, 23 Nov 2022 22:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:40:52.498421
- Title: Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets
- Title(参考訳): 動作制限データセットへの転送を可能にするマルチ環境事前トレーニング
- Authors: David Venuto, Sherry Yang, Pieter Abbeel, Doina Precup, Igor Mordatch,
Ofir Nachum
- Abstract要約: 強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
- 参考スコア(独自算出の注目度): 129.24823721649028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using massive datasets to train large-scale models has emerged as a dominant
approach for broad generalization in natural language and vision applications.
In reinforcement learning, however, a key challenge is that available data of
sequential decision making is often not annotated with actions - for example,
videos of game-play are much more available than sequences of frames paired
with their logged game controls. We propose to circumvent this challenge by
combining large but sparsely-annotated datasets from a \emph{target}
environment of interest with fully-annotated datasets from various other
\emph{source} environments. Our method, Action Limited PreTraining (ALPT),
leverages the generalization capabilities of inverse dynamics modelling (IDM)
to label missing action data in the target environment. We show that utilizing
even one additional environment dataset of labelled data during IDM pretraining
gives rise to substantial improvements in generating action labels for
unannotated sequences. We evaluate our method on benchmark game-playing
environments and show that we can significantly improve game performance and
generalization capability compared to other approaches, using annotated
datasets equivalent to only $12$ minutes of gameplay. Highlighting the power of
IDM, we show that these benefits remain even when target and source
environments share no common actions.
- Abstract(参考訳): 大規模なデータセットを使用して大規模モデルをトレーニングすることは、自然言語や視覚応用における広範な一般化の主流のアプローチとして現れている。
しかし強化学習では、シーケンシャルな意思決定の利用可能なデータは、しばしばアクションで注釈付けされない。例えば、ゲームプレイのビデオは、ログされたゲームコントロールとペアリングされたフレームのシーケンスよりもずっと多く利用可能である。
この課題を回避すべく,多種多様な \emph{source} 環境からの完全注釈付きデータセットと興味のある \emph{target} 環境から,大小ながら疎アノテートされたデータセットを組み合わせることを提案する。
提案手法であるAction Limited PreTraining (ALPT) は,逆ダイナミクスモデリング(IDM)の一般化機能を活用し,ターゲット環境での動作データをラベル付けする。
idmプリトレーニング中にラベル付きデータの1つの追加環境データセットを利用すると、注釈なしシーケンスに対するアクションラベルの生成が大幅に改善することを示す。
本手法をゲームプレイ環境のベンチマークで評価し,12ドル相当のアノテートデータセットを用いて,他の手法と比較してゲーム性能と一般化能力を大幅に向上させることができることを示す。
IDMのパワーを誇示して、ターゲット環境とソース環境が共通の行動を共有していない場合でも、これらの利点が残ることを示す。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - GUESR: A Global Unsupervised Data-Enhancement with Bucket-Cluster
Sampling for Sequential Recommendation [58.6450834556133]
本研究では,グローバルな視点から複雑な関連性を持つ項目表現を強化するために,グラフコントラスト学習を提案する。
本稿では,CapsNetモジュールを拡張したターゲットアテンション機構により,ユーザの動的嗜好を導出する。
提案したGUESRは,大幅な改善を達成できただけでなく,汎用的な拡張戦略ともみなすことができた。
論文 参考訳(メタデータ) (2023-03-01T05:46:36Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Basket-based Softmax [12.744577044692276]
我々は,バスケットベースソフトマックス(BBS)と呼ばれる新しい採鉱訓練戦略を提案する。
各トレーニングサンプルに対して、他のデータセットから負のクラスをマイニングする手がかりとして、類似度スコアを同時に採用する。
実世界とシミュレーションされたデータセットを用いて、顔認識と再識別のタスクにおけるBBSの効率性と優位性を実証する。
論文 参考訳(メタデータ) (2022-01-23T16:43:29Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z) - Pretraining Representations for Data-Efficient Reinforcement Learning [12.43475487724972]
ラベルのないデータを使ってエンコーダを事前訓練し、少数のタスク固有のデータに基づいて微調整する。
Atariゲーム上でのインタラクションが100万段階に制限された場合、我々のアプローチは以前の作業を大幅に上回っている。
提案手法では,大規模モデルと組み合わせることで,より多様なタスク整合観測データが得られる。
論文 参考訳(メタデータ) (2021-06-09T04:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。