論文の概要: Towards Principled Representation Learning from Videos for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.13765v1
- Date: Wed, 20 Mar 2024 17:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 15:58:55.814712
- Title: Towards Principled Representation Learning from Videos for Reinforcement Learning
- Title(参考訳): 強化学習のためのビデオからの原則的表現学習に向けて
- Authors: Dipendra Misra, Akanksha Saran, Tengyang Xie, Alex Lamb, John Langford,
- Abstract要約: ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
- 参考スコア(独自算出の注目度): 23.877731515619868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study pre-training representations for decision-making using video data, which is abundantly available for tasks such as game agents and software testing. Even though significant empirical advances have been made on this problem, a theoretical understanding remains absent. We initiate the theoretical investigation into principled approaches for representation learning and focus on learning the latent state representations of the underlying MDP using video data. We study two types of settings: one where there is iid noise in the observation, and a more challenging setting where there is also the presence of exogenous noise, which is non-iid noise that is temporally correlated, such as the motion of people or cars in the background. We study three commonly used approaches: autoencoding, temporal contrastive learning, and forward modeling. We prove upper bounds for temporal contrastive learning and forward modeling in the presence of only iid noise. We show that these approaches can learn the latent state and use it to do efficient downstream RL with polynomial sample complexity. When exogenous noise is also present, we establish a lower bound result showing that the sample complexity of learning from video data can be exponentially worse than learning from action-labeled trajectory data. This partially explains why reinforcement learning with video pre-training is hard. We evaluate these representational learning methods in two visual domains, yielding results that are consistent with our theoretical findings.
- Abstract(参考訳): 本稿では,ゲームエージェントやソフトウェアテストなどのタスクで十分に利用できるビデオデータを用いて,意思決定のための事前学習表現について検討する。
この問題に関して大きな実証的な進展があったが、理論的な理解はいまだに残っていない。
我々は,表現学習の原理的アプローチに関する理論的研究を開始し,ビデオデータを用いたMDPの潜在状態表現の学習に焦点をあてる。
本研究は,2種類の環境条件について検討する。1つの環境条件は,外因性雑音の存在,つまり背景の人や車の動きなど,時間的相関のない外因性雑音の存在,の2つである。
本稿では, 自動符号化, 時間的コントラスト学習, フォワードモデリングの3つの手法について検討する。
iidノイズのみの存在下で,時間的コントラスト学習とフォワードモデリングの上限を証明した。
これらの手法は潜伏状態の学習に役立ち、多項式サンプルの複雑さを伴う下流RLを効率的に行うことができることを示す。
また、外因性ノイズが存在する場合、ビデオデータから学習する際のサンプルの複雑さが、行動ラベル付き軌跡データから学習するよりも指数関数的に悪化することを示した。
このことは、ビデオ事前学習による強化学習が難しい理由を部分的に説明している。
これらの表現学習手法を2つの視覚領域で評価し,理論的な結果と一致した結果を得た。
関連論文リスト
- A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - The Surprising Effectiveness of Representation Learning for Visual
Imitation [12.60653315718265]
本稿では,視覚模倣のための行動学習から表現学習を分離することを提案する。
まず、標準教師付きおよび自己教師付き学習手法を用いて、オフラインデータから視覚表現エンコーダを学習する。
この単純なデカップリングにより、オフラインのデモデータセットと実ロボットドア開口の両方における視覚模倣モデルの性能が、以前の視覚模倣よりも向上することが実験的に示されている。
論文 参考訳(メタデータ) (2021-12-02T18:58:09Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。