論文の概要: $\lambda$-models: Effective Decision-Aware Reinforcement Learning with
Latent Models
- arxiv url: http://arxiv.org/abs/2306.17366v3
- Date: Thu, 29 Feb 2024 19:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:31:50.236935
- Title: $\lambda$-models: Effective Decision-Aware Reinforcement Learning with
Latent Models
- Title(参考訳): $\lambda$-models: 潜在モデルによる効果的な意思決定型強化学習
- Authors: Claas A Voelcker, Arash Ahmadian, Romina Abachi, Igor Gilitschenski,
Amir-massoud Farahmand
- Abstract要約: 本稿では,意思決定支援学習モデルに必要な要素について述べる。
実験的な設計決定は、関連するアルゴリズムの性能向上に不可欠である。
我々は,MuZero損失関数の使用が環境に偏りがあることを示し,この偏りが現実的な結果をもたらすことを証明した。
- 参考スコア(独自算出の注目度): 11.826471893069805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The idea of decision-aware model learning, that models should be accurate
where it matters for decision-making, has gained prominence in model-based
reinforcement learning. While promising theoretical results have been
established, the empirical performance of algorithms leveraging a
decision-aware loss has been lacking, especially in continuous control
problems. In this paper, we present a study on the necessary components for
decision-aware reinforcement learning models and we showcase design choices
that enable well-performing algorithms. To this end, we provide a theoretical
and empirical investigation into algorithmic ideas in the field. We highlight
that empirical design decisions established in the MuZero line of works, most
importantly the use of a latent model, are vital to achieving good performance
for related algorithms. Furthermore, we show that the MuZero loss function is
biased in stochastic environments and establish that this bias has practical
consequences. Building on these findings, we present an overview of which
decision-aware loss functions are best used in what empirical scenarios,
providing actionable insights to practitioners in the field.
- Abstract(参考訳): 意思決定に重要な場所ではモデルが正確であるべきだという意思決定モデル学習の考え方は、モデルベースの強化学習において注目を集めている。
有望な理論的結果が確立されている一方で、特に連続制御問題において、決定認識損失を利用したアルゴリズムの実証的性能が欠如している。
本稿では,意思決定対応強化学習モデルに必要な要素について検討し,優れたアルゴリズムを実現する設計選択について述べる。
この目的のために、この分野におけるアルゴリズム的アイデアの理論的および実証的研究を行う。
muzeroラインで確立された経験的設計決定、最も重要な潜在モデルの使用は、関連するアルゴリズムのパフォーマンスを達成する上で不可欠であることを強調する。
さらに,MuZero損失関数は確率的環境において偏りがあり,この偏りが現実的な結果をもたらすことを示す。
本研究は,これらの知見に基づいて,現場の実践者に対して,経験的シナリオにどのような意思決定認識損失関数が最適かを示す。
関連論文リスト
- Self-Improving Interference Management Based on Deep Learning With
Uncertainty Quantification [10.403513606082067]
本稿では,無線通信に適した自己改善型干渉管理フレームワークを提案する。
提案手法は,従来の最適化アルゴリズムに固有の計算課題に対処する。
私たちのフレームワークのブレークスルーは、データ駆動モデルに固有の制限を認識することです。
論文 参考訳(メタデータ) (2024-01-24T03:28:48Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Deep Manifold Learning for Reading Comprehension and Logical Reasoning
Tasks with Polytuplet Loss [0.0]
理解と論理的推論タスクを読む機械学習モデルの開発における現在のトレンドは、論理的ルールを理解し、活用するモデルの能力を改善することに焦点を当てている。
この研究は、新しい損失関数と、他のモデルよりも解釈可能なコンポーネントを持つモデルアーキテクチャを提供することに焦点を当てている。
我々の戦略は、絶対的精度よりも相対的精度を強調し、理論的には不完全な知識で正しい答えを生成できる。
論文 参考訳(メタデータ) (2023-04-03T14:48:34Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Towards Interpretable Deep Reinforcement Learning Models via Inverse
Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。
このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。
モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文 参考訳(メタデータ) (2022-03-30T17:01:59Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。