論文の概要: On the Limited Representational Power of Value Functions and its Links
to Statistical (In)Efficiency
- arxiv url: http://arxiv.org/abs/2403.07136v1
- Date: Mon, 11 Mar 2024 20:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:45:02.234906
- Title: On the Limited Representational Power of Value Functions and its Links
to Statistical (In)Efficiency
- Title(参考訳): 値関数の限定表現力とその統計的(In)効率との関係について
- Authors: David Cheikhi, Daniel Russo
- Abstract要約: 遷移力学に関する情報は、値関数の空間で表現することは不可能かもしれない。
より深い調査は、表現力の限界が非効率性のドライバであることを示している。
- 参考スコア(独自算出の注目度): 6.408072565019087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the trade-offs between model-based and model-free methods is a
central question in reinforcement learning. Value-based methods offer
substantial computational advantages and are sometimes just as statistically
efficient as model-based methods. However, focusing on the core problem of
policy evaluation, we show information about the transition dynamics may be
impossible to represent in the space of value functions. We explore this
through a series of case studies focused on structures that arises in many
important problems. In several, there is no information loss and value-based
methods are as statistically efficient as model based ones. In other
closely-related examples, information loss is severe and value-based methods
are severely outperformed. A deeper investigation points to the limitations of
the representational power as the driver of the inefficiency, as opposed to
failure in algorithm design.
- Abstract(参考訳): モデルベース手法とモデルフリー手法のトレードオフを特定することは、強化学習における中心的な課題である。
値ベースの手法は、かなりの計算上の利点をもたらし、しばしばモデルベースの方法と同じくらい統計的に効率的である。
しかし,政策評価の核となる問題に着目して,遷移ダイナミクスに関する情報を価値関数の空間で表現することは不可能であることを示す。
我々は、多くの重要な問題で発生する構造に焦点をあてた一連のケーススタディを通してこれを探求する。
いくつかは、情報損失はなく、値に基づく手法は、モデルに基づく手法と同じくらい統計的に効率的である。
他の近縁な例では、情報損失は深刻であり、価値に基づく手法は著しく優れています。
より深い調査は、アルゴリズム設計の失敗とは対照的に、非効率性のドライバとしての表現力の限界を指摘している。
関連論文リスト
- Unlearning in- vs. out-of-distribution data in LLMs under gradient-based method [31.268301764230525]
この研究は、生成モデルにおける未学習の品質を評価するための指標を定式化する。
学習しない品質とパフォーマンスのトレードオフを評価するために、それを使用します。
さらに,古典的漸進的アプローチの下で,サンプルの記憶と難易度が未学習にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2024-11-07T03:02:09Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - A feature selection method based on Shapley values robust to concept
shift in regression [0.0]
本稿では,Shapley値と予測誤差の直接的な関係について述べる。
提案アルゴリズムは, 概念シフトのシナリオにおいて, 最先端の特徴選択手法よりも優れていることを示す。
また,シフトのない場合のアルゴリズムの頑健さを評価するために,標準状況の3つの解析を行った。
論文 参考訳(メタデータ) (2023-04-28T11:34:59Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。