論文の概要: Max-Utility Based Arm Selection Strategy For Sequential Query
Recommendations
- arxiv url: http://arxiv.org/abs/2108.13810v1
- Date: Tue, 31 Aug 2021 13:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 20:48:39.945656
- Title: Max-Utility Based Arm Selection Strategy For Sequential Query
Recommendations
- Title(参考訳): 逐次クエリレコメンデーションのための最大ユーティリティに基づくアーム選択戦略
- Authors: Shameem A. Puthiya Parambath, Christos Anagnostopoulos, Roderick
Murray-Smith, Sean MacAvaney, Evangelos Zervas
- Abstract要約: オンライン情報収集や探索分析のようなクローズドループ対話型学習環境におけるクエリレコメンデーション問題について考察する。
この問題は、数え切れないほど多くの腕を持つマルチアーマッド・バンド(MAB)フレームワークを使って、自然にモデル化することができる。
このような選択戦略がしばしば高い累積的後悔をもたらすことを示し、この結果から、武器の最大有効性に基づく選択戦略を提案する。
- 参考スコア(独自算出の注目度): 16.986870945319293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the query recommendation problem in closed loop interactive
learning settings like online information gathering and exploratory analytics.
The problem can be naturally modelled using the Multi-Armed Bandits (MAB)
framework with countably many arms. The standard MAB algorithms for countably
many arms begin with selecting a random set of candidate arms and then applying
standard MAB algorithms, e.g., UCB, on this candidate set downstream. We show
that such a selection strategy often results in higher cumulative regret and to
this end, we propose a selection strategy based on the maximum utility of the
arms. We show that in tasks like online information gathering, where sequential
query recommendations are employed, the sequences of queries are correlated and
the number of potentially optimal queries can be reduced to a manageable size
by selecting queries with maximum utility with respect to the currently
executing query. Our experimental results using a recent real online literature
discovery service log file demonstrate that the proposed arm selection strategy
improves the cumulative regret substantially with respect to the
state-of-the-art baseline algorithms. % and commonly used random selection
strategy for a variety of contextual multi-armed bandit algorithms. Our data
model and source code are available at
~\url{https://anonymous.4open.science/r/0e5ad6b7-ac02-4577-9212-c9d505d3dbdb/}.
- Abstract(参考訳): オンライン情報収集や探索分析などのクローズドループ対話型学習環境におけるクエリ推薦問題を考える。
この問題は、数え切れない数の腕を持つマルチアーマッドバンド(MAB)フレームワークを使って、自然にモデル化することができる。
数え切れないほど多くのアームに対する標準的なMABアルゴリズムは、ランダムな候補アームの選択から始まり、この候補セットの下流に UCB などの標準MABアルゴリズムを適用する。
このような選択戦略は、しばしば高い累積的後悔をもたらすことを示し、この目的のために、武器の最大有効性に基づく選択戦略を提案する。
逐次的クエリ推薦を行うオンライン情報収集などのタスクでは,現在実行中のクエリに対して最大有効性を持つクエリを選択することで,クエリのシーケンスを関連付け,潜在的に最適なクエリの数を管理可能なサイズに削減できることを示す。
最近の実オンライン文献発見サービスlog fileを用いた実験の結果,提案手法は,最先端のベースラインアルゴリズムに対して,蓄積的後悔を著しく改善することが示された。
%であり,多腕バンディットアルゴリズムではランダム選択戦略が一般的であった。
データモデルとソースコードは ~\url{https://anonymous.4open.science/r/0e5ad6b7-ac02-4577-9212-c9d505d3dbdb/} で利用可能です。
関連論文リスト
- Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - Combinatorial Multi-armed Bandits: Arm Selection via Group Testing [36.24836468586544]
本稿では、半帯域フィードバックとスーパーアームサイズに対する濃度制約を備えたマルチアームバンディットの問題について考察する。
この問題を解決するための既存のアルゴリズムは、2つの重要なサブルーチンを含むのが一般的である。
本稿では, 完全オラクルに代わる新しい現実的な代替案を紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:19:57Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Adapting Bandit Algorithms for Settings with Sequentially Available Arms [0.0]
本稿では,MAB (Seq) に対する逐次プル/ノープルというメタアルゴリズムを提案する。
提案されたメタアルゴリズムは、特に第1ラウンドにおいて、腕の推定値に高い不確かさを特徴とするより多くの情報を集める。
Seqメタアルゴリズムは、合成および実世界のデータセットに関する古典的MABポリシーと比較して、広範囲にテストされた。
論文 参考訳(メタデータ) (2021-09-30T15:56:37Z) - Reinforcement Learning for Finite-Horizon Restless Multi-Armed
Multi-Action Bandits [8.136957953239254]
本稿では、R(MA)2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題について検討する。
各アームの状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、アームを引く報酬は、対応するMDPの現在の状態と、取られたアクションの両方に依存する。
最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-Reward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-20T21:40:12Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Determinantal Beam Search [75.84501052642361]
ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットがしばしば望まれる。
ビームサーチを一連の部分決定問題として繰り返し行うことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
論文 参考訳(メタデータ) (2021-06-14T13:01:46Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Online Preselection with Context Information under the Plackett-Luce
Model [10.286111512725334]
本稿では,コンテキスト型マルチアームバンディット問題の拡張について考察する。
一つの代替品(アーム)を選択する代わりに、学習者は代替品のサブセットの形で事前選択する。
本稿では,よく知られたUPBアルゴリズムにインスパイアされたCPPLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-11T09:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。