論文の概要: Active Learning for Contextual Search with Binary Feedbacks
- arxiv url: http://arxiv.org/abs/2110.01072v1
- Date: Sun, 3 Oct 2021 19:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 03:51:36.517294
- Title: Active Learning for Contextual Search with Binary Feedbacks
- Title(参考訳): 二元フィードバックを用いた文脈探索のためのアクティブラーニング
- Authors: Chen, Xi and Liu, Quanquan and Wang, Yining
- Abstract要約: 第一価格オークションなどの応用によって動機付けられた文脈探索における学習問題について検討する。
本稿では,三分探索手法とマージンに基づく能動学習手法を併用した三分探索手法を提案する。
- 参考スコア(独自算出の注目度): 2.6424064030995957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the learning problem in contextual search, which is
motivated by applications such as first-price auction, personalized medicine
experiments, and feature-based pricing experiments. In particular, for a
sequence of arriving context vectors, with each context associated with an
underlying value, the decision-maker either makes a query at a certain point or
skips the context. The decision-maker will only observe the binary feedback on
the relationship between the query point and the value associated with the
context. We study a PAC learning setting, where the goal is to learn the
underlying mean value function in context with a minimum number of queries. To
address this challenge, we propose a tri-section search approach combined with
a margin-based active learning method. We show that the algorithm only needs to
make $O(1/\varepsilon^2)$ queries to achieve an $\epsilon$-estimation accuracy.
This sample complexity significantly reduces the required sample complexity in
the passive setting, at least $\Omega(1/\varepsilon^4)$.
- Abstract(参考訳): 本稿では,プライスオークション,パーソナライズされた医学実験,機能ベースの価格実験などの応用を動機とする文脈検索における学習問題について検討する。
特に、到着するコンテキストベクトルのシーケンスに対して、各コンテキストが基礎となる値に関連付けられている場合、意思決定者は特定のポイントでクエリを行うか、コンテキストをスキップする。
意思決定者は、クエリポイントとコンテキストに関連する値の関係について、バイナリフィードバックだけを観察します。
本研究では,最小クエリ数で文脈の平均値関数を学習することを目的としたpac学習環境について検討する。
そこで本研究では,この課題に対処するために,マージンベースアクティブラーニング法を併用した三分割探索手法を提案する。
我々は,アルゴリズムが$O(1/\varepsilon^2)$クエリを作成すれば,$\epsilon$-estimation精度が得られることを示した。
このサンプルの複雑さは、少なくとも$\Omega(1/\varepsilon^4)$の受動的設定において必要とされるサンプルの複雑さを著しく減少させる。
関連論文リスト
- FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Learning Thresholds with Latent Values and Censored Feedback [18.129896050051432]
未知の報酬$g(gamma, v)$が提案されたしきい値$gamma$と潜伏値$v$に依存する問題を示し、そのしきい値が未知の潜伏値よりも低い場合のみ$$を達成できる。
この問題は、オンラインオークションにおける予約価格の最適化、クラウドソーシングにおけるオンラインタスクの割り当て、雇用におけるリクルートバーの設定など、現実的なシナリオにおける幅広い応用がある。
論文 参考訳(メタデータ) (2023-12-07T19:30:08Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - Information-Computation Tradeoffs for Learning Margin Halfspaces with
Random Classification Noise [50.64137465792738]
ランダム分類ノイズを用いたPAC$gamma$-marginハーフスペースの問題について検討する。
我々は、問題のサンプル複雑性と計算効率の良いアルゴリズムのサンプル複雑性との間に固有のギャップを示唆する情報計算トレードオフを確立する。
論文 参考訳(メタデータ) (2023-06-28T16:33:39Z) - A Few Expert Queries Suffices for Sample-Efficient RL with Resets and
Linear Value Approximation [16.29514743112387]
最適値関数のみを線形化可能な設定において、サンプル効率のよい強化学習(RL)について検討する。
専門的なクエリと探索をブレンドするための統計的・計算学的に効率的なアルゴリズム(Delphi)を提案する。
Delphi には $tildemathcalO(d)$ エキスパートクエリと $texttpoly(d,|mathcalA|,1/varepsilon)$ 探索サンプルの量が必要です。
論文 参考訳(メタデータ) (2022-07-18T01:39:13Z) - QRelScore: Better Evaluating Generated Questions with Deeper
Understanding of Context-aware Relevance [54.48031346496593]
我々は、$underlinetextbfRel$evance評価指標のコンテキスト対応評価指標である$textbfQRelScore$を提案する。
BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を採用している。
既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-04-29T07:39:53Z) - Teaching an Active Learner with Contrastive Examples [35.926575235046634]
本研究では,学習者が補助的な教師によって支援される追加のツイストを用いて,能動的学習の課題について検討する。
比較例を適応的に選択する効率的な学習アルゴリズムについて検討する。
2つの問題依存パラメータに基づいてアルゴリズムの性能保証を行う。
論文 参考訳(メタデータ) (2021-10-28T05:00:55Z) - How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。
本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。
さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文 参考訳(メタデータ) (2021-10-05T20:15:35Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。