Fugu-MT 論文翻訳(概要): A Note on Loss Functions and Error Compounding in Model-based Reinforcement Learning

論文の概要: A Note on Loss Functions and Error Compounding in Model-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2404.09946v1
Date: Mon, 15 Apr 2024 17:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 21:27:57.952822
Title: A Note on Loss Functions and Error Compounding in Model-based Reinforcement Learning
Title（参考訳）: モデルに基づく強化学習における損失関数と誤り合成に関する一考察
Authors: Nan Jiang,
Abstract要約: このノートは、モデルに基づく強化学習に関する混乱を明らかにしている。議論の主なトピックは、モデルに基づくRLの誤りに関する経験的評判と、その優れた理論的性質と、経験的に人気がある損失の制限をどう調和させるかである。
参考スコア（独自算出の注目度）: 9.138331318293895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This note clarifies some confusions (and perhaps throws out more) around model-based reinforcement learning and their theoretical understanding in the context of deep RL. Main topics of discussion are (1) how to reconcile model-based RL's bad empirical reputation on error compounding with its superior theoretical properties, and (2) the limitations of empirically popular losses. For the latter, concrete counterexamples for the "MuZero loss" are constructed to show that it not only fails in stochastic environments, but also suffers exponential sample complexity in deterministic environments when data provides sufficient coverage.
Abstract（参考訳）: このノートは、モデルに基づく強化学習とその深いRLの文脈における理論的理解に関して、いくつかの混乱(そしておそらくそれ以上の混乱)を明らかにしている。主な論点として,(1)モデルに基づくRLの誤り評価と,(2)経験的人気損失の限界を比較検討する。後者の場合、「MuZero損失」に対する具体的な反例は、確率的環境において失敗するだけでなく、データが十分なカバレッジを提供する場合、決定論的環境において指数的なサンプルの複雑さを被ることを示すために構築される。

関連論文リスト

A Theoretical Framework for Preventing Class Collapse in Supervised Contrastive Learning [13.790114327022449]
教師付きコントラスト学習(SupCL)は、表現学習において顕著なアプローチとして現れている。本稿では,SupCLの学習表現におけるクラス崩壊を防止するためのガイドラインについて理論的に検討する。
論文参考訳（メタデータ） (2025-03-11T09:17:58Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文参考訳（メタデータ） (2025-02-01T18:09:49Z)
The Surprising Harmfulness of Benign Overfitting for Adversarial Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文参考訳（メタデータ） (2024-01-19T15:40:46Z)
Neural Network Approximation for Pessimistic Offline Reinforcement Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文参考訳（メタデータ） (2023-12-19T05:17:27Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文参考訳（メタデータ） (2023-10-07T09:15:08Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Bias-inducing geometries: an exactly solvable data model with fairness implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文参考訳（メタデータ） (2022-05-31T16:27:57Z)
Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文参考訳（メタデータ） (2021-09-09T10:10:29Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
Robust Unsupervised Learning via L-Statistic Minimization [38.49191945141759]
教師なし学習に焦点をあて、この問題に対する一般的なアプローチを提示する。重要な仮定は、摂動分布は、許容モデルの特定のクラスに対するより大きな損失によって特徴付けられることである。教師なし学習におけるいくつかのポピュラーモデルに対する提案基準に関して,一様収束境界を証明した。
論文参考訳（メタデータ） (2020-12-14T10:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。