論文の概要: Double-Linear Thompson Sampling for Context-Attentive Bandits
- arxiv url: http://arxiv.org/abs/2010.09473v1
- Date: Thu, 15 Oct 2020 13:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:17:22.249991
- Title: Double-Linear Thompson Sampling for Context-Attentive Bandits
- Title(参考訳): 文脈制約帯域に対する二重線トンプソンサンプリング
- Authors: Djallel Bouneffouf, Rapha\"el F\'eraud, Sohini Upadhyay, Yasaman
Khazaeni and Irina Rish
- Abstract要約: 我々は、様々な実践的応用を動機とした、Context-Attentive Banditとして知られるオンライン学習フレームワークを分析・拡張する。
本研究では, 線形トンプソンサンプリング法に基づいて, コンテキストアテンティブ・トンプソンサンプリング(CATS)と呼ばれる新しいアルゴリズムを導出し, コンテキストアテンティブ・バンディット設定に適用する。
- 参考スコア(独自算出の注目度): 27.786695164493562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we analyze and extend an online learning framework known as
Context-Attentive Bandit, motivated by various practical applications, from
medical diagnosis to dialog systems, where due to observation costs only a
small subset of a potentially large number of context variables can be observed
at each iteration;however, the agent has a freedom to choose which variables to
observe. We derive a novel algorithm, called Context-Attentive Thompson
Sampling (CATS), which builds upon the Linear Thompson Sampling approach,
adapting it to Context-Attentive Bandit setting. We provide a theoretical
regret analysis and an extensive empirical evaluation demonstrating advantages
of the proposed approach over several baseline methods on a variety of
real-life datasets
- Abstract(参考訳): 本稿では,医療診断からダイアログシステムまで,様々な実践的応用を動機とした,コンテキスト認識帯域(Context-Attentive Bandit)と呼ばれるオンライン学習フレームワークの解析と拡張を行う。
本研究では, 線形トンプソンサンプリング法に基づいて, コンテキストアテンティブ・トンプソンサンプリング(CATS)と呼ばれる新しいアルゴリズムを導出し, コンテキストアテンティブ・バンディット設定に適用する。
種々の実生活データセットに対するいくつかのベースライン手法に対する提案手法の利点を示す理論的後悔分析と広範な経験的評価を提供する。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Resilient Multiple Choice Learning: A learned scoring scheme with
application to audio scene analysis [8.896068269039452]
回帰設定における条件分布推定のための弾力性多重選択学習(rMCL)を提案する。
rMCLは、一連の仮説に対してWinner-Takes-All(WTA)損失を用いて、マルチモーダル密度推定に取り組むための単純なフレームワークである。
論文 参考訳(メタデータ) (2023-11-02T07:54:03Z) - Analysis of Thompson Sampling for Partially Observable Contextual
Multi-Armed Bandits [1.8275108630751844]
我々は、部分的に観測可能なコンテキスト多重武装バンディットのためのトンプソンサンプリングアルゴリズムを提案する。
提示された政策の後悔は、時間と武器の数に応じて対数的にスケールし、寸法と直線的にスケールすることを示す。
論文 参考訳(メタデータ) (2021-10-23T08:51:49Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - A Discussion on Practical Considerations with Sparse Regression
Methodologies [0.0]
統計科学に掲載された2つの論文は、いくつかのスパース回帰法の比較性能について研究している。
この2つの研究を要約して比較し,ユーザへの明快さと価値の提供を目指す。
論文 参考訳(メタデータ) (2020-11-18T15:58:35Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Sparse Methods for Automatic Relevance Determination [0.0]
まず、自動妥当性決定(ARD)について検討し、スパースモデルを実現するために、追加の正規化やしきい値設定の必要性を解析的に実証する。
次に、正規化ベースとしきい値ベースという2つの手法のクラスについて論じる。
論文 参考訳(メタデータ) (2020-05-18T14:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。