論文の概要: $\lambda$-AC: Learning latent decision-aware models for reinforcement
learning in continuous state-spaces
- arxiv url: http://arxiv.org/abs/2306.17366v1
- Date: Fri, 30 Jun 2023 02:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:42:43.511438
- Title: $\lambda$-AC: Learning latent decision-aware models for reinforcement
learning in continuous state-spaces
- Title(参考訳): $\lambda$-AC: 連続状態空間における強化学習のための潜在的意思決定モデル学習
- Authors: Claas A Voelcker, Arash Ahmadian, Romina Abachi, Igor Gilitschenski,
Amir-massoud Farahmand
- Abstract要約: 本稿では,意思決定支援学習モデルに必要な要素について述べる。
良いパフォーマンスのアルゴリズムを可能にする設計選択を強調します。
本稿では,潜在モデルに基づく決定型アクタ批判フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.550295205841138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The idea of decision-aware model learning, that models should be accurate
where it matters for decision-making, has gained prominence in model-based
reinforcement learning. While promising theoretical results have been
established, the empirical performance of algorithms leveraging a
decision-aware loss has been lacking, especially in continuous control
problems. In this paper, we present a study on the necessary components for
decision-aware reinforcement learning models and we showcase design choices
that enable well-performing algorithms. To this end, we provide a theoretical
and empirical investigation into prominent algorithmic ideas in the field. We
highlight that empirical design decisions established in the MuZero line of
works are vital to achieving good performance for related algorithms, and we
showcase differences in behavior between different instantiations of
value-aware algorithms in stochastic environments. Using these insights, we
propose the Latent Model-Based Decision-Aware Actor-Critic framework
($\lambda$-AC) for decision-aware model-based reinforcement learning in
continuous state-spaces and highlight important design choices in different
environments.
- Abstract(参考訳): 意思決定に重要な場所ではモデルが正確であるべきだという意思決定モデル学習の考え方は、モデルベースの強化学習において注目を集めている。
有望な理論的結果が確立されている一方で、特に連続制御問題において、決定認識損失を利用したアルゴリズムの実証的性能が欠如している。
本稿では,意思決定対応強化学習モデルに必要な要素について検討し,優れたアルゴリズムを実現する設計選択について述べる。
この目的のために、この分野における顕著なアルゴリズム的アイデアの理論的および実証的研究を行う。
我々は,MuZeroシリーズで確立された経験的設計決定が,関連するアルゴリズムの性能向上に不可欠であることを強調し,確率的環境における値認識アルゴリズムの異なるインスタンス化の挙動の違いを示す。
これらの知見を用いて,連続状態空間における意思決定モデルに基づく強化学習のための潜在モデルに基づく決定アウェアアクタ-クリティックフレームワーク(\lambda$-ac)を提案し,異なる環境における重要な設計選択を強調する。
関連論文リスト
- Self-Improving Interference Management Based on Deep Learning With
Uncertainty Quantification [10.403513606082067]
本稿では,無線通信に適した自己改善型干渉管理フレームワークを提案する。
提案手法は,従来の最適化アルゴリズムに固有の計算課題に対処する。
私たちのフレームワークのブレークスルーは、データ駆動モデルに固有の制限を認識することです。
論文 参考訳(メタデータ) (2024-01-24T03:28:48Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Deep Manifold Learning for Reading Comprehension and Logical Reasoning
Tasks with Polytuplet Loss [0.0]
理解と論理的推論タスクを読む機械学習モデルの開発における現在のトレンドは、論理的ルールを理解し、活用するモデルの能力を改善することに焦点を当てている。
この研究は、新しい損失関数と、他のモデルよりも解釈可能なコンポーネントを持つモデルアーキテクチャを提供することに焦点を当てている。
我々の戦略は、絶対的精度よりも相対的精度を強調し、理論的には不完全な知識で正しい答えを生成できる。
論文 参考訳(メタデータ) (2023-04-03T14:48:34Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Towards Interpretable Deep Reinforcement Learning Models via Inverse
Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。
このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。
モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文 参考訳(メタデータ) (2022-03-30T17:01:59Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。