論文の概要: Calibrated Value-Aware Model Learning with Probabilistic Environment Models
- arxiv url: http://arxiv.org/abs/2505.22772v2
- Date: Mon, 09 Jun 2025 01:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 01:40:32.556642
- Title: Calibrated Value-Aware Model Learning with Probabilistic Environment Models
- Title(参考訳): 確率的環境モデルを用いた校正価値認識モデル学習
- Authors: Claas Voelcker, Anastasiia Pedan, Arash Ahmadian, Romina Abachi, Igor Gilitschenski, Amir-massoud Farahmand,
- Abstract要約: 我々は、人気の高いMuZero損失を含む、価値認識モデル学習損失の家系を分析した。
これらの損失は、通常用いられるように、無調整の代理損失であり、必ずしも正しいモデルと値関数を回復しないことを意味する。
- 参考スコア(独自算出の注目度): 11.633285935344208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The idea of value-aware model learning, that models should produce accurate value estimates, has gained prominence in model-based reinforcement learning. The MuZero loss, which penalizes a model's value function prediction compared to the ground-truth value function, has been utilized in several prominent empirical works in the literature. However, theoretical investigation into its strengths and weaknesses is limited. In this paper, we analyze the family of value-aware model learning losses, which includes the popular MuZero loss. We show that these losses, as normally used, are uncalibrated surrogate losses, which means that they do not always recover the correct model and value function. Building on this insight, we propose corrections to solve this issue. Furthermore, we investigate the interplay between the loss calibration, latent model architectures, and auxiliary losses that are commonly employed when training MuZero-style agents. We show that while deterministic models can be sufficient to predict accurate values, learning calibrated stochastic models is still advantageous.
- Abstract(参考訳): モデルに基づく強化学習において、モデルが正確な値推定を生成するべきだという価値認識モデル学習の考え方が注目されている。
モデル値関数を基底構造値関数と比較し, モデル値関数の予測をペナルティ化する MuZero 損失は, 文献におけるいくつかの顕著な経験的研究で利用されてきた。
しかし、その強さと弱さに関する理論的研究は限られている。
本稿では,MuZeroの損失を含む価値認識モデル学習損失の家系を解析する。
これらの損失は、通常用いられるように、無調整の代理損失であり、必ずしも正しいモデルと値関数を回復しないことを意味する。
この知見に基づいて,この問題を解決するための修正を提案する。
さらに,MuZero型エージェントのトレーニングにおいて一般的に使用される損失校正,潜在モデルアーキテクチャ,補助的損失の相互関係について検討する。
決定論的モデルは正確な値を予測するのに十分である一方で、校正確率モデルの学習は依然として有利であることを示す。
関連論文リスト
- Prediction Models That Learn to Avoid Missing Values [7.302408149992981]
失敗回避機械学習(英: Missingness-avoiding、MA)は、テスト時に欠落する機能の価値をほとんど必要としないモデルをトレーニングするためのフレームワークである。
我々は,決定木,木アンサンブル,疎線形モデルに適したMA学習アルゴリズムを作成する。
我々のフレームワークは、テスト時に欠落した値の予測において、解釈可能性を維持する強力なツールを提供する。
論文 参考訳(メタデータ) (2025-05-06T10:16:35Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - Rethinking and Recomputing the Value of Machine Learning Models [16.06614967567121]
機械学習モデルをトレーニングし評価する一般的なアプローチは、現実のアプリケーションを考えるのに失敗することが多い、と私たちは主張する。
精度やfスコアといった従来のメトリクスは、このようなハイブリッドな設定でモデルの有益な価値を捉えることができません。
本稿では, 予測, 誤り, 拒絶に対するタスク固有のコストを組み込んだ, 単純かつ理論的に健全な"値"メトリックを提案する。
論文 参考訳(メタデータ) (2022-09-30T01:02:31Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - A Mathematical Analysis of Learning Loss for Active Learning in
Regression [2.792030485253753]
本論文では、LearningLoss++と呼ばれる新しい修正を提案するためのLearning Lossの基礎を開発する。
本稿では,学習損失の解釈において,学習損失と学習ロス++との勾配を厳密に分析し比較することで,勾配が重要であることを示す。
また,異なるスケールで機能を組み合わせて損失を予測する畳み込みアーキテクチャを提案する。
learningloss++は、モデルがパフォーマンスの悪いシナリオを特定するのに優れており、モデルリファインメントがオープン世界での信頼性の高いパフォーマンスに繋がることを示している。
論文 参考訳(メタデータ) (2021-04-19T13:54:20Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。