論文の概要: Experiment Planning with Function Approximation
- arxiv url: http://arxiv.org/abs/2401.05193v1
- Date: Wed, 10 Jan 2024 14:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:32:47.279629
- Title: Experiment Planning with Function Approximation
- Title(参考訳): 関数近似による実験計画
- Authors: Aldo Pacchiano, Jonathan N. Lee, Emma Brunskill
- Abstract要約: 本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
- 参考スコア(独自算出の注目度): 49.50254688629728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of experiment planning with function approximation in
contextual bandit problems. In settings where there is a significant overhead
to deploying adaptive algorithms -- for example, when the execution of the data
collection policies is required to be distributed, or a human in the loop is
needed to implement these policies -- producing in advance a set of policies
for data collection is paramount. We study the setting where a large dataset of
contexts but not rewards is available and may be used by the learner to design
an effective data collection strategy. Although when rewards are linear this
problem has been well studied, results are still missing for more complex
reward models. In this work we propose two experiment planning strategies
compatible with function approximation. The first is an eluder planning and
sampling procedure that can recover optimality guarantees depending on the
eluder dimension of the reward function class. For the second, we show that a
uniform sampler achieves competitive optimality rates in the setting where the
number of actions is small. We finalize our results introducing a statistical
gap fleshing out the fundamental differences between planning and adaptive
learning and provide results for planning with model selection.
- Abstract(参考訳): 文脈的バンディット問題における関数近似を用いた実験計画の問題点について検討する。
例えば、データ収集ポリシーの実行が必要な場合や、これらのポリシーを実装するのにループ内の人間が必要な場合など、適応アルゴリズムのデプロイに重大なオーバーヘッドがある場合、事前にデータ収集のための一連のポリシーが最重要となる。
本研究では,学習者が効果的なデータ収集戦略を設計するために,膨大なコンテキストのデータセットが利用できるが報われない設定について検討する。
報酬が線形である場合、この問題はよく研究されているが、より複雑な報酬モデルでは結果が失われている。
本研究では,関数近似に適合する2つの実験計画戦略を提案する。
1つ目は、報酬関数クラスのeluder次元に応じて最適性保証を回復できるeluderプランニングおよびサンプリング手順である。
第2に、一様サンプリング器は、アクションの数が少ない設定において、競合最適性を達成できることを示す。
我々は,計画と適応学習の基本的な相違を具現化した統計的ギャップを導入し,モデル選択による計画結果を提供する。
関連論文リスト
- Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文 参考訳(メタデータ) (2022-11-22T04:44:17Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文 参考訳(メタデータ) (2021-12-23T02:31:50Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Policy Learning with Adaptively Collected Data [22.839095992238537]
適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-05T22:03:10Z) - Decomposition and Adaptive Sampling for Data-Driven Inverse Linear
Optimization [12.610576072466895]
この研究は、線形プログラムの未知のコストベクトルを推論することが目的である逆線形最適化に対処する。
本稿では,既存の手法と比較して,制約の少ない,一般的に許容可能なコスト見積の集合の回復を可能にする,新たな問題の定式化を導入する。
論文 参考訳(メタデータ) (2020-09-16T22:25:31Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。