論文の概要: Episodic Novelty Through Temporal Distance
- arxiv url: http://arxiv.org/abs/2501.15418v1
- Date: Sun, 26 Jan 2025 06:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:46.814892
- Title: Episodic Novelty Through Temporal Distance
- Title(参考訳): 時間的距離を通したエピソードの新規性
- Authors: Yuhua Jiang, Qihan Liu, Yiqin Yang, Xiaoteng Ma, Dianyu Zhong, Hao Hu, Jun Yang, Bin Liang, Bo Xu, Chongjie Zhang, Qianchuan Zhao,
- Abstract要約: Episodic Novelty Through Temporal Distance (ETD) は、状態類似性と本質的報酬の堅牢な指標として時間距離を導入する新しいアプローチである。
コントラスト学習を用いることで、ETDは時間的距離を正確に推定し、現在のエピソードにおける状態の新規性に基づいて本質的な報酬を導出する。
- 参考スコア(独自算出の注目度): 39.66260812278513
- License:
- Abstract: Exploration in sparse reward environments remains a significant challenge in reinforcement learning, particularly in Contextual Markov Decision Processes (CMDPs), where environments differ across episodes. Existing episodic intrinsic motivation methods for CMDPs primarily rely on count-based approaches, which are ineffective in large state spaces, or on similarity-based methods that lack appropriate metrics for state comparison. To address these shortcomings, we propose Episodic Novelty Through Temporal Distance (ETD), a novel approach that introduces temporal distance as a robust metric for state similarity and intrinsic reward computation. By employing contrastive learning, ETD accurately estimates temporal distances and derives intrinsic rewards based on the novelty of states within the current episode. Extensive experiments on various benchmark tasks demonstrate that ETD significantly outperforms state-of-the-art methods, highlighting its effectiveness in enhancing exploration in sparse reward CMDPs.
- Abstract(参考訳): スパース報酬環境における探索は、特にエピソードによって異なる文脈マルコフ決定過程(CMDP)において、強化学習において重要な課題である。
既存のCMDPの根本的モチベーション法は、主にカウントベースのアプローチに依存しており、大きな状態空間では有効ではない。
このような欠点に対処するために,時間的距離を時間的類似性や本質的な報酬計算の頑健な指標として導入する新しい手法であるETD(Epsodic Novelty Through Temporal Distance)を提案する。
コントラスト学習を用いることで、ETDは時間的距離を正確に推定し、現在のエピソードにおける状態の新規性に基づいて本質的な報酬を導出する。
様々なベンチマークタスクに関する大規模な実験により、ETDは最先端の手法を著しく上回り、スパース報酬CMDPの探索を効率化する効果を強調した。
関連論文リスト
- Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Episodic Reinforcement Learning with Expanded State-reward Space [1.479675621064679]
本稿では, 入力として使用する拡張状態と, トレーニングで使用する拡張報酬が, 履歴情報と現在の情報の両方を含むような, 拡張された状態逆空間を持つ効率的なECベースのDRLフレームワークを提案する。
提案手法は,検索情報の完全活用と時間差分(TD)損失による状態値の評価を同時に行うことができる。
論文 参考訳(メタデータ) (2024-01-19T06:14:36Z) - Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文 参考訳(メタデータ) (2022-12-15T16:28:06Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Hierarchical Compositional Representations for Few-shot Action
Recognition [51.288829293306335]
本稿では,新しい階層型合成表現(HCR)学習手法を提案する。
複雑なアクションを、慎重に設計された階層的クラスタリングによって、いくつかのサブアクションに分割する。
また、輸送問題において、サブアクション表現の観点から、ビデオサンプル間の類似度を測定するために、アースモーバー距離(Earth Mover's Distance)を採用した。
論文 参考訳(メタデータ) (2022-08-19T16:16:59Z) - Spatio-temporal Gait Feature with Adaptive Distance Alignment [90.5842782685509]
我々は,ネットワーク構造の最適化と抽出した歩行特徴の洗練という2つの側面から,異なる被験者の歩行特徴の差を増大させようとしている。
提案手法は時空間特徴抽出(SFE)と適応距離アライメント(ADA)から構成される。
ADAは実生活における多数の未ラベルの歩行データをベンチマークとして使用し、抽出した時間的特徴を洗練し、クラス間類似度が低く、クラス内類似度が高いようにしている。
論文 参考訳(メタデータ) (2022-03-07T13:34:00Z) - MICo: Learning improved representations via sampling-based state
similarity for Markov decision processes [18.829939056796313]
マルコフ決定過程の状態空間上での新しい行動距離を示す。
我々は,この距離を深層強化学習エージェントの学習表現を効果的に形成する手段として用いることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:24:12Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - Enforcing Almost-Sure Reachability in POMDPs [10.883864654718103]
部分観測可能なマルコフ決定プロセス(POMDP)は、限られた情報の下での逐次決定のためのよく知られたモデルである。
我々は、悪い状態にたどり着くことなく、ほぼ確実に目標状態に達するような、EXPTIMEの難題を考察する。
SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-30T19:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。