論文の概要: Stochastic Linear Contextual Bandits with Diverse Contexts
- arxiv url: http://arxiv.org/abs/2003.02681v1
- Date: Thu, 5 Mar 2020 14:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 06:51:47.447586
- Title: Stochastic Linear Contextual Bandits with Diverse Contexts
- Title(参考訳): 異なる文脈をもつ確率線形コンテキスト帯域
- Authors: Weiqiang Wu, Jing Yang, and Cong Shen
- Abstract要約: 文脈が十分に多様である場合、学習者は、エクスプロイト時に得られた情報を利用して探索過程を短縮できることを示す。
我々はLinUCB-dアルゴリズムを設計し、その後悔する性能を解析するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 17.35270010828849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the impact of context diversity on stochastic
linear contextual bandits. As opposed to the previous view that contexts lead
to more difficult bandit learning, we show that when the contexts are
sufficiently diverse, the learner is able to utilize the information obtained
during exploitation to shorten the exploration process, thus achieving reduced
regret. We design the LinUCB-d algorithm, and propose a novel approach to
analyze its regret performance. The main theoretical result is that under the
diverse context assumption, the cumulative expected regret of LinUCB-d is
bounded by a constant. As a by-product, our results improve the previous
understanding of LinUCB and strengthen its performance guarantee.
- Abstract(参考訳): 本稿では,文脈多様性が確率線形文脈帯域に与える影響について検討する。
文脈がより難しいバンディット学習につながるという以前の見解とは対照的に、文脈が十分に多様である場合には、学習者は、搾取時に得られた情報を利用して探索過程を短縮し、後悔を減らすことができる。
我々はLinUCB-dアルゴリズムを設計し、その後悔する性能を分析する新しい手法を提案する。
主な理論的結果は、多様な文脈の仮定の下で、linucb-d の累積期待後悔は定数によって有界である。
副産物として,LinUCBのこれまでの理解を改善し,性能保証を強化した。
関連論文リスト
- Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。
そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T17:59:09Z) - Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits [15.342585350280535]
本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。
本稿では,予測勾配勾配(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T22:30:29Z) - Contextrast: Contextual Contrastive Learning for Semantic Segmentation [9.051352746190448]
コントラスト学習に基づくセマンティックセグメンテーション手法であるContextrastを提案する。
提案手法は,文脈コントラスト学習 (CCL) と境界認識型負サンプリング (B) の2つの部分からなる。
我々のContextrastはセマンティックセグメンテーションネットワークの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-04-16T15:04:55Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Efficient Algorithms for Learning to Control Bandits with Unobserved
Contexts [1.370633147306388]
そこで本研究では,不完全なコンテキスト観測を行うバンドに対して,実装可能な後部サンプリングアルゴリズムを提案する。
提案アルゴリズムは,ノイズの多い不完全な観測から学習の効率性を明らかにし,それに応じて行動を取る。
論文 参考訳(メタデータ) (2022-02-02T04:03:19Z) - Revisiting Contrastive Learning through the Lens of Neighborhood
Component Analysis: an Integrated Framework [70.84906094606072]
下流タスクにおいて高い精度とロバスト性を同時に達成できるような、統合されたコントラスト損失を設計するための新しい手法を示す。
統合フレームワークでは,標準精度が最大6%向上し,対角精度が17%向上した。
論文 参考訳(メタデータ) (2021-12-08T18:54:11Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Dynamic Batch Learning in High-Dimensional Sparse Linear Contextual
Bandits [18.64677502651614]
高次元線形空間帯域における動的バッチ学習の問題点について検討する。
我々の研究は、高次元の疎線形文脈帯域における動的バッチ学習の理論的理解への第一歩となる。
論文 参考訳(メタデータ) (2020-08-27T05:34:34Z) - Greedy Bandits with Sampled Context [0.0]
Greedy Bandits with Sampled Context (GB-SC) は、コンテキスト情報から事前の開発を行うためのコンテキスト多重武装バンディットの手法である。
以上の結果から,Mushroom環境において,期待される後悔と期待される累積的後悔の両面での競争性能が示された。
論文 参考訳(メタデータ) (2020-07-27T17:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。