論文の概要: Temporal Alignment for History Representation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.03525v1
- Date: Thu, 7 Apr 2022 15:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:12:07.226982
- Title: Temporal Alignment for History Representation in Reinforcement Learning
- Title(参考訳): 強化学習における歴史表現のための時間アライメント
- Authors: Aleksandr Ermolov, Enver Sangineto, Nicu Sebe
- Abstract要約: 環境に重要な変化のみを伴って歴史を表現することを提案する。
我々の手法(TempAl)は時間的に閉じたフレームを整列させ、環境の全般的かつゆっくりと変化する状態を明らかにする。
アーケード学習環境から利用可能なすべてのAtariゲーム上でTempAlを評価する。
- 参考スコア(独自算出の注目度): 134.73528189399497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environments in Reinforcement Learning are usually only partially observable.
To address this problem, a possible solution is to provide the agent with
information about the past. However, providing complete observations of
numerous steps can be excessive. Inspired by human memory, we propose to
represent history with only important changes in the environment and, in our
approach, to obtain automatically this representation using self-supervision.
Our method (TempAl) aligns temporally-close frames, revealing a general, slowly
varying state of the environment. This procedure is based on contrastive loss,
which pulls embeddings of nearby observations to each other while pushing away
other samples from the batch. It can be interpreted as a metric that captures
the temporal relations of observations. We propose to combine both common
instantaneous and our history representation and we evaluate TempAl on all
available Atari games from the Arcade Learning Environment. TempAl surpasses
the instantaneous-only baseline in 35 environments out of 49. The source code
of the method and of all the experiments is available at
https://github.com/htdt/tempal.
- Abstract(参考訳): 強化学習の環境は通常、部分的にしか観察できない。
この問題を解決するには、エージェントに過去の情報を提供することが考えられる。
しかし、多くのステップの完全な観察を提供することは過度である。
人間の記憶に触発されて,環境に重要な変化のみを伴って歴史を表現し,自己スーパービジョンを用いてこの表現を自動的に取得する手法を提案する。
提案手法(tempal)は時間的に閉じたフレームを整列させ,環境の一般的な,ゆっくりと変化する状態を明らかにする。
この手順はコントラスト損失に基づいており、他のサンプルをバッチから押し離しながら、近傍の観測結果の埋め込みを相互に引き出す。
これは観測の時間的関係を捉える計量として解釈できる。
アーケード学習環境から利用可能なすべてのatariゲームにおいて,共通のインスタント表現と歴史表現を組み合わせることを提案し,テンパを評価する。
TempAlは49の35の環境で、瞬時のみのベースラインを超えている。
このメソッドとすべての実験のソースコードはhttps://github.com/htdt/tempal.com/で入手できる。
関連論文リスト
- STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow [5.476991379461233]
両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。
提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T04:56:10Z) - Soft Contrastive Learning for Time Series [5.752266579415516]
時系列の簡易かつ効果的なソフトコントラスト学習戦略であるSoftCLTを提案する。
具体的には,1)データ空間上の時系列間の距離によるインスタンス単位のコントラスト損失,2)タイムスタンプの違いによる時間的コントラスト損失について,ソフトな割り当てを定義する。
実験では、SoftCLTは、分類、半教師付き学習、移動学習、異常検出など、様々な下流タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-12-27T06:15:00Z) - AltFreezing for More General Video Face Forgery Detection [138.5732617371004]
顔偽造検出のための1つのモデルにおいて,空間的および見えない時間的アーティファクトの両方をキャプチャすることを提案する。
より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-17T08:24:58Z) - Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video
Representation [16.643709221279764]
本稿では,新しいプレテキストタスク-時間的重複率(STOR)予測を提案する。
それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。
我々は、時間的表現学習を強化するために、コントラスト学習を組み合わせた共同作業を採用する。
論文 参考訳(メタデータ) (2021-12-16T14:31:22Z) - A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning [60.720251418816815]
本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-29T17:59:53Z) - Content-Based Detection of Temporal Metadata Manipulation [91.34308819261905]
画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。
中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。
我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。
論文 参考訳(メタデータ) (2021-03-08T13:16:19Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Spatio-Temporal Event Segmentation and Localization for Wildlife
Extended Videos [6.279863832853343]
本稿では,時間的イベントセグメンテーションが可能な自己教師型予測フレームワークを提案する。
私たちは、標準的なディープラーニングのバックボーンによって計算される高レベルの機能の予測に頼っています。
野生生物モニタリングデータの10日間 (254時間) のビデオに対するアプローチを実演する。
論文 参考訳(メタデータ) (2020-05-05T20:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。