論文の概要: Expected Eligibility Traces
- arxiv url: http://arxiv.org/abs/2007.01839v2
- Date: Mon, 8 Feb 2021 13:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:16:29.001271
- Title: Expected Eligibility Traces
- Title(参考訳): 期待される適性トレース
- Authors: Hado van Hasselt, Sephora Madjiheurem, Matteo Hessel, David Silver,
Andr\'e Barreto, Diana Borsa
- Abstract要約: 期待されたトレースは、現在の状態に先行する可能性のある状態やアクションを更新することを可能にする。
ブートストラップと同様のメカニズムにより,即時と期待されたトレースを円滑に補間する方法を提供する。
- 参考スコア(独自算出の注目度): 31.942254205913798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The question of how to determine which states and actions are responsible for
a certain outcome is known as the credit assignment problem and remains a
central research question in reinforcement learning and artificial
intelligence. Eligibility traces enable efficient credit assignment to the
recent sequence of states and actions experienced by the agent, but not to
counterfactual sequences that could also have led to the current state. In this
work, we introduce expected eligibility traces. Expected traces allow, with a
single update, to update states and actions that could have preceded the
current state, even if they did not do so on this occasion. We discuss when
expected traces provide benefits over classic (instantaneous) traces in
temporal-difference learning, and show that sometimes substantial improvements
can be attained. We provide a way to smoothly interpolate between instantaneous
and expected traces by a mechanism similar to bootstrapping, which ensures that
the resulting algorithm is a strict generalisation of TD($\lambda$). Finally,
we discuss possible extensions and connections to related ideas, such as
successor features.
- Abstract(参考訳): 特定の結果にどの州や行動が責任を負うかを決定するかという問題は、クレジット代入問題として知られており、強化学習と人工知能における中心的な研究課題である。
適格トレースは、エージェントが経験した最近の状態や行動のシーケンスに効率的なクレジット割り当てを可能にするが、現在の状態に繋がる可能性のある偽のシーケンスは行わない。
本研究では, 期待適性トレースを紹介する。
期待されたトレースは、1回の更新で、現在の状態に先行する可能性のある状態とアクションを更新することができる。
我々は,時間差学習において,期待されるトレースが古典的(即時)トレースよりもメリットをもたらす場合について議論し,時として相当な改善が達成できることを示す。
ブートストレッピングと同様のメカニズムにより、瞬時と期待されたトレースを円滑に補間する方法を提供し、結果のアルゴリズムがTD($\lambda$)の厳密な一般化であることを保証する。
最後に、後継機能のような関連するアイデアへの拡張と接続の可能性について論じる。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - From Past to Future: Rethinking Eligibility Traces [21.737721213359183]
本稿では,新しい値関数の概念について考察する。
我々は,この値関数を学習するために,原則的更新方程式を導出し,実験を通じて,政策評価のプロセスを強化する効果を実証した。
論文 参考訳(メタデータ) (2023-12-20T12:23:30Z) - Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling [31.696222064667243]
アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。
既存のAQAの作業は、トレーニングデータはすべて一度にトレーニング用に見えるが、継続的な学習はできないと仮定している。
本稿では,AQAタスクを忘れずに逐次学習するための統一モデルを提案する。
論文 参考訳(メタデータ) (2023-09-29T10:06:28Z) - Sequence Model Imitation Learning with Unobserved Contexts [39.4969161422156]
我々は,専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
政治以外のアプローチは、歴史へのアクセスが与えられた場合、実際には悪化する一方で、政治以外のアプローチでは、歴史を使ってコンテキストを識別できることが示される。
論文 参考訳(メタデータ) (2022-08-03T17:27:44Z) - Predecessor Features [0.0]
Predecessor Features"は、このよりリッチなクレジット代入を実現するアルゴリズムである。
過去の占有率の予想総和を近似した表現を維持することにより, アルゴリズムは時間差(TD)誤差を正確に伝播させることができる。
論文 参考訳(メタデータ) (2022-06-01T08:05:59Z) - Efficient Embedding of Semantic Similarity in Control Policies via
Entangled Bisimulation [3.5092955099876266]
視覚的障害の存在下での視覚入力からの一般化可能なポリシの学習は、強化学習において難しい問題である。
そこで本研究では,状態間の距離関数を指定可能なビシミュレーション・メトリックであるエンタングルド・ビシミュレーションを提案する。
本稿では,Distracting Control Suite (DCS) における従来の手法に比べて,絡み合ったバイシミュレーションが有意に改善可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T18:06:06Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - LSTC: Boosting Atomic Action Detection with Long-Short-Term Context [60.60267767456306]
我々は行動認識パイプラインを短期的・長期的依存に分解する。
本設計では, 局所集約分枝を用いて, 密集した情報的短期的手がかりを収集する。
両方のブランチは、コンテキスト固有のアクションを独立して予測し、結果が最後にマージされる。
論文 参考訳(メタデータ) (2021-10-19T10:09:09Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。