論文の概要: Learning State Representations from Random Deep Action-conditional
Predictions
- arxiv url: http://arxiv.org/abs/2102.04897v1
- Date: Tue, 9 Feb 2021 15:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:16:22.862996
- Title: Learning State Representations from Random Deep Action-conditional
Predictions
- Title(参考訳): ランダム深部行動条件予測による学習状態表現
- Authors: Zeyu Zheng, Vivek Veeriah, Risto Vuorio, Richard Lewis, Satinder Singh
- Abstract要約: 時間差ネットワーク(TDネットワーク)によって定義される補助予測タスクについて検討する。
これらのネットワークは、汎用値関数(GVF)予測対象の豊富な空間を表現するための言語である。
本稿では,TDネットワークの完全豊かさを活かした状態表現学習のメリットを示す。
- 参考スコア(独自算出の注目度): 22.613243592853184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study auxiliary prediction tasks defined by
temporal-difference networks (TD networks); these networks are a language for
expressing a rich space of general value function (GVF) prediction targets that
may be learned efficiently with TD. Through analysis in an illustrative domain
we show the benefits to learning state representations of exploiting the full
richness of TD networks, including both action-conditional predictions and
temporally deep predictions. Our main (and perhaps surprising) result is that
deep action-conditional TD networks with random structures that create random
prediction-questions about random features yield state representations that are
competitive with state-of-the-art hand-crafted value prediction and pixel
control auxiliary tasks in both Atari games and DeepMind Lab tasks. We also
show through stop-gradient experiments that learning the state representations
solely via these unsupervised random TD network prediction tasks yield agents
that outperform the end-to-end-trained actor-critic baseline.
- Abstract(参考訳): 本稿では,時間拡散ネットワーク(tdネットワーク)によって定義される補助的予測タスクについて検討する。これらのネットワークは,tdで効率的に学習可能な一般値関数(gvf)予測対象のリッチ空間を表現するための言語である。
図解的領域の解析を通じて,行動条件予測と時間的深い予測の両方を含む,tdネットワークの完全な豊かさを利用する状態表現を学ぶことの利点を示す。
私たちの主な(そしておそらく驚くべき)結果は、ランダムな機能についてのランダムな予測質問を作成するランダムな構造を持つディープアクション条件付きTDネットワークは、AtariゲームとDeepMind Labタスクの両方で最先端の手作り値予測とピクセル制御補助タスクと競合する状態表現をもたらします。
また,これらの教師なしランダムtdネットワーク予測タスクのみを通して状態表現を学習することで,エンド・ツー・エンドのアクタ-批判ベースラインよりも優れたエージェントが得られることを示す。
関連論文リスト
- Learning from Predictions: Fusing Training and Autoregressive Inference
for Long-Term Spatiotemporal Forecasts [4.068387278512612]
本稿では,複雑なシステムを予測するためのスケジューリング自動回帰BPTT (Schduled Autoregressive BPTT) アルゴリズムを提案する。
その結果,BPTT-SAは畳み込みRNNと畳み込みオートエンコーダRNNの反復的誤り伝播を効果的に抑制できることがわかった。
論文 参考訳(メタデータ) (2023-02-22T02:46:54Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - End-to-End Trajectory Distribution Prediction Based on Occupancy Grid
Maps [29.67295706224478]
本稿では,実世界における移動エージェントの将来の軌跡分布を予測することを目的としている。
我々は、接地構造分布に対する明示的かつシーン順応的な近似として、占有格子マップを用いて対称的クロスエントロピーで分布を学習する。
実験では,Stanford Drone データセットとIntersection Drone データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T09:24:32Z) - Link Prediction with Contextualized Self-Supervision [63.25455976593081]
リンク予測は、ネットワーク内の2つのノード間のリンクの存在を推測することを目的としている。
従来のリンク予測アルゴリズムは、リンク空間、ノード属性ノイズ、ネットワークダイナミクスという3つの大きな課題によって妨げられている。
本稿では,リンク予測のための構造的コンテキスト予測を完全に活用する,コンテキスト適応型自己監視学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-25T03:12:32Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Stochastic Action Prediction for Imitation Learning [1.6385815610837169]
模倣学習は、観察を行動にマップするポリシーを学ぶために専門家のデモンストレーションに依存するスキルを獲得するためのデータ駆動のアプローチです。
遠隔操作車によるライン追従を含むタスクのために収集されたデモに本質性を示す。
専門家データにおける相反性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2020-12-26T08:02:33Z) - Latent Representation Prediction Networks [0.0]
満足できない表現を学習するこの原則を見いだす。
本稿では,この表現を予測関数とともに学習する新しい方法を提案する。
提案手法は, 標準強化学習法よりもサンプリング効率がよいことを示す。
論文 参考訳(メタデータ) (2020-09-20T14:26:03Z) - DSDNet: Deep Structured self-Driving Network [92.9456652486422]
本稿では,1つのニューラルネットワークを用いて物体検出,動き予測,動き計画を行うDeep Structured Self-Driving Network (DSDNet)を提案する。
我々は,アクター間の相互作用を考慮し,社会的に一貫したマルチモーダル未来予測を生成する,深く構造化されたエネルギーベースモデルを開発する。
論文 参考訳(メタデータ) (2020-08-13T17:54:06Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。