論文の概要: Interactively Learning Preference Constraints in Linear Bandits
- arxiv url: http://arxiv.org/abs/2206.05255v1
- Date: Fri, 10 Jun 2022 17:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 12:12:10.547714
- Title: Interactively Learning Preference Constraints in Linear Bandits
- Title(参考訳): 線形帯域における選好制約の相互学習
- Authors: David Lindner and Sebastian Tschiatschek and Katja Hofmann and Andreas
Krause
- Abstract要約: 我々は、既知の報酬と未知の制約で逐次意思決定を研究する。
応用として,運転シミュレーションにおいて,人間の嗜好を表現するための学習制約を検討する。
- 参考スコア(独自算出の注目度): 100.78514640066565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study sequential decision-making with known rewards and unknown
constraints, motivated by situations where the constraints represent
expensive-to-evaluate human preferences, such as safe and comfortable driving
behavior. We formalize the challenge of interactively learning about these
constraints as a novel linear bandit problem which we call constrained linear
best-arm identification. To solve this problem, we propose the Adaptive
Constraint Learning (ACOL) algorithm. We provide an instance-dependent lower
bound for constrained linear best-arm identification and show that ACOL's
sample complexity matches the lower bound in the worst-case. In the average
case, ACOL's sample complexity bound is still significantly tighter than bounds
of simpler approaches. In synthetic experiments, ACOL performs on par with an
oracle solution and outperforms a range of baselines. As an application, we
consider learning constraints to represent human preferences in a driving
simulation. ACOL is significantly more sample efficient than alternatives for
this application. Further, we find that learning preferences as constraints is
more robust to changes in the driving scenario than encoding the preferences
directly in the reward function.
- Abstract(参考訳): 安全で快適な運転行動など,人間の好みを評価できる条件によって動機づけられた,既知の報酬と未知の制約による逐次的意思決定について検討する。
我々は,これらの制約を対話的に学習する課題を,制約付き線形最良アーム識別と呼ばれる新しい線形バンディット問題として定式化する。
そこで本研究では,適応制約学習(ACOL)アルゴリズムを提案する。
制約付き線形最良アーム識別のためのインスタンス依存下限を提供し,acolのサンプル複雑性が最悪の場合の下限に一致することを示す。
平均的な場合、ACOLのサンプル複雑性境界は、より単純なアプローチの境界よりもかなり厳密である。
合成実験では、ACOLはオラクル溶液と同等に働き、ベースラインの幅を上回っている。
アプリケーションとして,運転シミュレーションにおいて人間の嗜好を表現するために学習制約を検討する。
ACOLは、この用途の代替案よりもはるかに試料効率が高い。
さらに,運転シナリオの変化に対する制約としての学習選好は,報奨関数に直接選好を符号化するよりも頑健であることがわかった。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Active Learning in the Predict-then-Optimize Framework: A Margin-Based
Approach [5.371816551086118]
本研究では,ラベルのないデータストリームから特徴サンプルのラベルを要求するかどうかを逐次決定する学習手法を開発した。
我々の能動学習法は,予測パラメータによって引き起こされる決定誤差によって直接情報を得る最初の方法である。
論文 参考訳(メタデータ) (2023-05-11T05:44:36Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Active Learning with Safety Constraints [25.258564629480063]
対話型環境における安全な判断を学習することの複雑さについて検討する。
適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
論文 参考訳(メタデータ) (2022-06-22T15:45:38Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Bloom Origami Assays: Practical Group Testing [90.2899558237778]
グループテストは、いくつかの魅力的なソリューションでよく研究されている問題である。
近年の生物学的研究は、従来の方法と相容れない新型コロナウイルスの実践的な制約を課している。
我々は,Bloomフィルタと信条伝搬を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な経験的結果を得る。
論文 参考訳(メタデータ) (2020-07-21T19:31:41Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。