論文の概要: Topological Experience Replay
- arxiv url: http://arxiv.org/abs/2203.15845v3
- Date: Mon, 26 Jun 2023 21:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 18:16:13.795697
- Title: Topological Experience Replay
- Title(参考訳): トポロジカル体験リプレイ
- Authors: Zhang-Wei Hong, Tao Chen, Yen-Chen Lin, Joni Pajarinen, Pulkit Agrawal
- Abstract要約: 深層Q-ラーニングメソッドは、経験リプレイバッファからサンプリングされた状態遷移を使用してQ-値を更新する。
エージェントの経験をグラフに整理し、状態のQ値間の依存性を明示的に追跡する。
本手法は,多種多様な目標達成タスクのベースラインよりも,データ効率が著しく高いことを実証的に示す。
- 参考スコア(独自算出の注目度): 22.84244156916668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art deep Q-learning methods update Q-values using state
transition tuples sampled from the experience replay buffer. This strategy
often uniformly and randomly samples or prioritizes data sampling based on
measures such as the temporal difference (TD) error. Such sampling strategies
can be inefficient at learning Q-function because a state's Q-value depends on
the Q-value of successor states. If the data sampling strategy ignores the
precision of the Q-value estimate of the next state, it can lead to useless and
often incorrect updates to the Q-values. To mitigate this issue, we organize
the agent's experience into a graph that explicitly tracks the dependency
between Q-values of states. Each edge in the graph represents a transition
between two states by executing a single action. We perform value backups via a
breadth-first search starting from that expands vertices in the graph starting
from the set of terminal states and successively moving backward. We
empirically show that our method is substantially more data-efficient than
several baselines on a diverse range of goal-reaching tasks. Notably, the
proposed method also outperforms baselines that consume more batches of
training experience and operates from high-dimensional observational data such
as images.
- Abstract(参考訳): 最先端のディープq-learningメソッドは、experience replayバッファからサンプリングされた状態遷移タプルを使用して、q値を更新する。
この戦略はしばしば、時間差(TD)誤差などの尺度に基づいて、一様かつランダムにデータサンプリングをサンプリングまたは優先順位付けする。
このようなサンプリング戦略は、状態のQ値が後続状態のQ値に依存するため、Q関数の学習において非効率である。
データサンプリング戦略が次の状態のQ値推定の精度を無視している場合、Q値に対する無駄でしばしば誤った更新につながる可能性がある。
この問題を軽減するため、エージェントの経験をグラフに整理し、状態のq値間の依存性を明示的に追跡する。
グラフの各エッジは、単一のアクションを実行することによって、2つの状態間の遷移を表す。
まず,端末状態の集合から始まるグラフの頂点を拡大し,連続的に後方に移動するような,幅優先探索による値バックアップを行う。
本手法は,多種多様な目標達成タスクにおいて,複数のベースラインよりもはるかにデータ効率が高いことを示す。
提案手法は,訓練経験のバッチを多く消費し,画像などの高次元観測データから操作するベースラインよりも優れている。
関連論文リスト
- State-Action Similarity-Based Representations for Off-Policy Evaluation [7.428147895832805]
我々は,OPEが調整した状態行動類似度指標を導入し,この指標と固定データセットを用いて,この指標をモデル化したエンコーダを学習する。
我々は,FQE と OPE の誤りに対するデータ効率を,OPE の課題に対する他の OPE ベース表現学習手法と比較して向上させることを示す。
論文 参考訳(メタデータ) (2023-10-27T18:00:57Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary
State Tracking [55.62705574507595]
OpenPIは、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。
手順レベル,ステップレベル,状態変化レベルの3つの問題を分類する。
評価指標として,クラスタベースの計量法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:48:20Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - State estimation with limited sensors -- A deep learning based approach [0.0]
本稿では,シーケンシャルデータから学習する新しいディープラーニングに基づく状態推定フレームワークを提案する。
逐次データを利用することで,1~2つのセンサのみの状態回復が可能になることを示す。
論文 参考訳(メタデータ) (2021-01-27T16:14:59Z) - Qgraph-bounded Q-learning: Stabilizing Model-Free Off-Policy Deep
Reinforcement Learning [33.31762612175859]
アートモデルのない非政治的な深層強化学習の状況では、過去の経験を記憶し、すべてのネットワーク更新を導出するためにリプレイメモリが使用される。
データグラフでこれらの遷移を表現し、その構造をソフトな分散にリンクする。
単純化された MDP における各遷移に対する Q-値が、元の連続 Q-ラーニング問題における同じ遷移に対する Q-値の低い境界であることを示す。
論文 参考訳(メタデータ) (2020-07-15T10:01:32Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。