論文の概要: Bayesian Off-Policy Evaluation and Learning for Large Action Spaces
- arxiv url: http://arxiv.org/abs/2402.14664v1
- Date: Thu, 22 Feb 2024 16:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:47:37.657401
- Title: Bayesian Off-Policy Evaluation and Learning for Large Action Spaces
- Title(参考訳): ベイズ的オフポリシー評価と大規模行動空間の学習
- Authors: Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba
- Abstract要約: 対話型システムでは、アクションはよく相関し、よりサンプリング効率の良いオフ・ポリシーの評価と学習の機会を提供する。
我々は、これらの相関関係を構造化および情報的事前を通じて捉えるために、統一されたベイズ的枠組みを導入する。
我々は,OPEとOPLの一般ベイズ的アプローチであるsDMを提案する。
- 参考スコア(独自算出の注目度): 14.203316003782604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In interactive systems, actions are often correlated, presenting an
opportunity for more sample-efficient off-policy evaluation (OPE) and learning
(OPL) in large action spaces. We introduce a unified Bayesian framework to
capture these correlations through structured and informative priors. In this
framework, we propose sDM, a generic Bayesian approach designed for OPE and
OPL, grounded in both algorithmic and theoretical foundations. Notably, sDM
leverages action correlations without compromising computational efficiency.
Moreover, inspired by online Bayesian bandits, we introduce Bayesian metrics
that assess the average performance of algorithms across multiple problem
instances, deviating from the conventional worst-case assessments. We analyze
sDM in OPE and OPL, highlighting the benefits of leveraging action
correlations. Empirical evidence showcases the strong performance of sDM.
- Abstract(参考訳): 対話型システムでは、アクションはしばしば相関し、より大きなアクション空間におけるよりサンプル効率の高いオフポリシー評価(OPE)と学習(OPL)の機会を提供する。
我々は,これらの相関関係を構造化的および情報的優先順位で捉えるための統一ベイズフレームワークを提案する。
この枠組みでは,アルゴリズムと理論の基盤を基礎として,ope と opl 向けに設計された汎用ベイズ法である sdm を提案する。
特に、sDMは計算効率を損なうことなく行動相関を利用する。
さらに,オンラインベイズ・バンディットに触発されて,従来の最悪のケース評価から外れた,複数の問題インスタンスにわたるアルゴリズムの平均パフォーマンスを評価するベイズ指標を導入する。
我々は,OPEとOPLのsDMを分析し,行動相関の利点を明らかにする。
実証的な証拠は、sDMの強い性能を示している。
関連論文リスト
- Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits [15.916834591090009]
文脈的包帯における非政治評価と学習について検討する。
この設定はレコメンデーターシステムやヘルスケアといった分野で広く使われている。
因子化された作用空間の概念を導入し、各サブセットをバイナリインジケータに分解する。
論文 参考訳(メタデータ) (2024-08-20T21:25:04Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Counterfactual Learning with Multioutput Deep Kernels [0.0]
本稿では,観測データを用いた反実的推論の課題に対処する。
本稿では、因果効果を推定し、適切にポリシーを学習する、対実的マルチタスクディープカーネルモデルの一般的なクラスを示す。
論文 参考訳(メタデータ) (2022-11-20T23:28:41Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。