論文の概要: Beyond Black-Box Advice: Learning-Augmented Algorithms for MDPs with
Q-Value Predictions
- arxiv url: http://arxiv.org/abs/2307.10524v1
- Date: Thu, 20 Jul 2023 01:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:08:55.316167
- Title: Beyond Black-Box Advice: Learning-Augmented Algorithms for MDPs with
Q-Value Predictions
- Title(参考訳): Black-Box Adviceを超える:Q値予測付きMDPのための学習拡張アルゴリズム
- Authors: Tongxin Li, Yiheng Lin, Shaolei Ren and Adam Wierman
- Abstract要約: 一般のMDPモデルの下でQ値のアドバイスが与えられた場合、第一種一貫性とロバスト性トレードオフが証明される。
結果から,Q値アドバイスを利用することで,より優れた機械学習アドバイスと堅牢なベースラインを動的に追求できることが示唆された。
- 参考スコア(独自算出の注目度): 24.34012773450017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the tradeoff between consistency and robustness in the context of a
single-trajectory time-varying Markov Decision Process (MDP) with untrusted
machine-learned advice. Our work departs from the typical approach of treating
advice as coming from black-box sources by instead considering a setting where
additional information about how the advice is generated is available. We prove
a first-of-its-kind consistency and robustness tradeoff given Q-value advice
under a general MDP model that includes both continuous and discrete
state/action spaces. Our results highlight that utilizing Q-value advice
enables dynamic pursuit of the better of machine-learned advice and a robust
baseline, thus result in near-optimal performance guarantees, which provably
improves what can be obtained solely with black-box advice.
- Abstract(参考訳): 単軌道時間変化マルコフ決定過程(MDP)の文脈における一貫性と堅牢性の間のトレードオフを、信頼できない機械学習アドバイスを用いて検討する。
私たちの作業は、アドバイスの生成方法に関する追加情報が得られる設定を考慮し、ブラックボックスソースからのアドバイスを取り扱う典型的なアプローチから外れています。
連続的および離散的状態/作用空間を含む一般MDPモデルの下でQ値のアドバイスを与えられた第一種一貫性とロバスト性トレードオフを証明する。
以上の結果から,Q値アドバイスを利用することで,機械学習によるアドバイスとロバストなベースラインを動的に追求することが可能となり,ほぼ最適な性能保証が得られ,ブラックボックスアドバイスのみで得られるものが改善されることが示唆された。
関連論文リスト
- Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z) - Max-Margin Contrastive Learning [120.32963353348674]
教師なし表現学習のためのMMCL(max-margin contrastive learning)を提案する。
提案手法は2次最適化問題を用いて得られたスパース支持ベクトルとして負を選択する。
我々は、標準ビジョンベンチマークデータセットに対するアプローチを検証し、教師なし表現学習におけるより良い性能を示す。
論文 参考訳(メタデータ) (2021-12-21T18:56:54Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z) - Recommendation Fairness: From Static to Dynamic [12.080824433982993]
推薦のための強化学習手法に公平性を組み込む方法について論じる。
我々は、推薦公正性をさらに前進させるために、マルチエージェント(ゲーム理論)最適化、マルチオブジェクト(パレート)最適化を検討すべきかもしれないと論じる。
論文 参考訳(メタデータ) (2021-09-05T21:38:05Z) - Fast Multi-Step Critiquing for VAE-based Recommender Systems [27.207067974031805]
M&Ms-VAEは、提案と説明のための新しい変分オートエンコーダです。
モデルを弱い監督スキームでトレーニングし、完全および部分的に観察された変数をシミュレートします。
次に、訓練されたM&Ms-VAEモデルの一般化能力を利用して、ユーザの好みと批判を個別に埋め込む。
論文 参考訳(メタデータ) (2021-05-03T12:26:09Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。