論文の概要: Time-Aware Q-Networks: Resolving Temporal Irregularity for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.02580v1
- Date: Thu, 6 May 2021 11:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:19:54.366160
- Title: Time-Aware Q-Networks: Resolving Temporal Irregularity for Deep
Reinforcement Learning
- Title(参考訳): time-aware q-networks:深層強化学習のための時間的不規則性解消
- Authors: Yeo Jin Kim and Min Chi
- Abstract要約: タイムアウェアなQ-Networks (TQN) フレームワークについて紹介する。
TQNは、1)過去の経過時間と、2)時間認識状態近似のための次の観測時間と、2)報酬の時間認識割引のための未来の行動時間ウィンドウの2つの側面から、時間不規則を扱う。
本研究は, 原子炉運転や敗血症患者に対する本質的時間間隔処理などの実世界の課題において, ランダムに区切られた従来のrlタスクにおいて, 時間認識割引のみがより重要であることを示す。
- 参考スコア(独自算出の注目度): 9.655349059913888
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Reinforcement Learning (DRL) has shown outstanding performance on
inducing effective action policies that maximize expected long-term return on
many complex tasks. Much of DRL work has been focused on sequences of events
with discrete time steps and ignores the irregular time intervals between
consecutive events. Given that in many real-world domains, data often consists
of temporal sequences with irregular time intervals, and it is important to
consider the time intervals between temporal events to capture latent
progressive patterns of states. In this work, we present a general Time-Aware
RL framework: Time-aware Q-Networks (TQN), which takes into account physical
time intervals within a deep RL framework. TQN deals with time irregularity
from two aspects: 1) elapsed time in the past and an expected next observation
time for time-aware state approximation, and 2) action time window for the
future for time-aware discounting of rewards. Experimental results show that by
capturing the underlying structures in the sequences with time irregularities
from both aspects, TQNs significantly outperform DQN in four types of contexts
with irregular time intervals. More specifically, our results show that in
classic RL tasks such as CartPole and MountainCar and Atari benchmark with
randomly segmented time intervals, time-aware discounting alone is more
important while in the real-world tasks such as nuclear reactor operation and
septic patient treatment with intrinsic time intervals, both time-aware state
and time-aware discounting are crucial. Moreover, to improve the agent's
learning capacity, we explored three boosting methods: Double networks, Dueling
networks, and Prioritized Experience Replay, and our results show that for the
two real-world tasks, combining all three boosting methods with TQN is
especially effective.
- Abstract(参考訳): 深層強化学習(DRL)は、多くの複雑なタスクにおいて期待される長期的なリターンを最大化する効果的なアクションポリシーを誘導する際、優れたパフォーマンスを示した。
DRLの作業の多くは、離散的な時間ステップを持つイベントのシーケンスに焦点を当てており、連続するイベント間の不規則な時間間隔を無視している。
多くの現実世界の領域において、データは不規則な時間間隔を持つ時間系列で構成されており、潜在的な状態の進行パターンを捉えるために時間イベント間の時間間隔を考慮することが重要である。
本稿では,深層rlフレームワークにおける物理時間間隔を考慮した時間認識型q-networks(tqn)という汎用的なrlフレームワークを提案する。
TQNは、1)過去の経過時間と、2)時間認識状態近似のための次の観測時間と、2)報酬の時間認識割引のための未来の行動時間ウィンドウの2つの側面から、時間不規則を扱う。
実験結果から,両面から時間不規則な配列の基底構造を捉えることにより,TQNは不規則な時間間隔を持つ4種類の文脈において,DQNを著しく上回ることがわかった。
より具体的には,CartPoleやMountainCar,Atariといった古典的RLの時間間隔をランダムに割ったベンチマークでは,原子炉運転や本態性時間間隔による懐疑的患者治療といった現実的なタスクでは,時間認識状態と時間認識割引の両方が重要となる。
さらに、エージェントの学習能力を向上させるために、二重ネットワーク、デューリングネットワーク、優先経験再生という3つのブースティング手法を探索し、実際の2つのタスクに対して、TQNと組み合わせた3つのブースティング手法が特に有効であることを示す。
関連論文リスト
- FAITH: Frequency-domain Attention In Two Horizons for Time Series Forecasting [13.253624747448935]
時系列予測は、産業機器の保守、気象学、エネルギー消費、交通流、金融投資など、様々な分野で重要な役割を果たしている。
現在のディープラーニングベースの予測モデルは、予測結果と基礎的真実の間に大きな違いを示すことが多い。
本稿では、時系列をトレンドと季節成分に分解する2つのホライズンズにおける周波数領域注意モデルを提案する。
論文 参考訳(メタデータ) (2024-05-22T02:37:02Z) - TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling [67.02157180089573]
時系列事前トレーニングは、最近、ラベルのコストを削減し、下流の様々なタスクに利益をもたらす可能性があるとして、広く注目を集めている。
本稿では,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師型事前学習フレームワークとしてTimeSiamを提案する。
論文 参考訳(メタデータ) (2024-02-04T13:10:51Z) - Distillation Enhanced Time Series Forecasting Network with Momentum Contrastive Learning [7.4106801792345705]
長周期時系列予測のための革新的蒸留強化フレームワークであるDE-TSMCLを提案する。
具体的には、タイムスタンプをマスクするかどうかを適応的に学習する学習可能なデータ拡張機構を設計する。
そこで本研究では,時系列のサンプル間および時間内相関を探索するために,モーメントを更新したコントラスト学習タスクを提案する。
複数のタスクからモデル損失を発生させることで、下流予測タスクの効果的な表現を学習することができる。
論文 参考訳(メタデータ) (2024-01-31T12:52:10Z) - TFDNet: Time-Frequency Enhanced Decomposed Network for Long-term Time
Series Forecasting [2.6361094144982005]
長期の時系列予測は重要な課題であり、幅広い応用がある。
最近の手法は、1つのドメインから下位のパターンをキャプチャすることに焦点を当てている。
本稿では時間周波数拡張分解ネットワーク(TFDNet)を提案する。
論文 参考訳(メタデータ) (2023-08-25T14:01:43Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - TimesNet: Temporal 2D-Variation Modeling for General Time Series
Analysis [80.56913334060404]
時系列解析は、天気予報、異常検出、行動認識などの応用において非常に重要である。
従来の手法では、1D時系列から直接これを達成しようと試みていた。
複雑な経時的変化を、複数の経時的変化と経時的変化に明らかにする。
論文 参考訳(メタデータ) (2022-10-05T12:19:51Z) - Grouped self-attention mechanism for a memory-efficient Transformer [64.0125322353281]
天気予報、電力消費、株式市場などの現実世界のタスクには、時間とともに変化するデータの予測が含まれる。
時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。
我々はGSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)の2つの新しいモジュールを提案する。
提案モデルでは,既存の手法に匹敵する計算量と性能の低減が効果的に示された。
論文 参考訳(メタデータ) (2022-10-02T06:58:49Z) - STING: Self-attention based Time-series Imputation Networks using GAN [4.052758394413726]
GANを用いたSING(Self-attention based Time-Series Imputation Networks)を提案する。
我々は、時系列の潜在表現を学習するために、生成的対向ネットワークと双方向リカレントニューラルネットワークを利用する。
3つの実世界のデータセットによる実験結果から、STINGは既存の最先端手法よりも計算精度が優れていることが示された。
論文 参考訳(メタデータ) (2022-09-22T06:06:56Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - TE-ESN: Time Encoding Echo State Network for Prediction Based on
Irregularly Sampled Time Series Data [6.221375620565451]
不規則サンプリング時系列(ISTS)に基づく予測は、現実世界の応用において広く懸念されている。
Time Echo State Network(TE-ESN)という新しいモデル構造を作成します。
ISTSデータを処理できる最初のESNsベースのモデルである。
1つのカオスシステムと3つの実世界のデータセットの実験は、TE-ESNがすべてのベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-05-02T08:00:46Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。