論文の概要: Learning in Distributed Contextual Linear Bandits Without Sharing the
Context
- arxiv url: http://arxiv.org/abs/2206.04180v1
- Date: Wed, 8 Jun 2022 22:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 05:10:57.960211
- Title: Learning in Distributed Contextual Linear Bandits Without Sharing the
Context
- Title(参考訳): 文脈を共有しない分散文脈線形帯域での学習
- Authors: Osama A. Hanna, Lin F. Yang, Christina Fragouli
- Abstract要約: 文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。
本稿では,分散メモリレス文脈線形帯域学習問題について考察する。
- 参考スコア(独自算出の注目度): 39.70492757288025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual linear bandits is a rich and theoretically important model that
has many practical applications. Recently, this setup gained a lot of interest
in applications over wireless where communication constraints can be a
performance bottleneck, especially when the contexts come from a large
$d$-dimensional space. In this paper, we consider a distributed memoryless
contextual linear bandit learning problem, where the agents who observe the
contexts and take actions are geographically separated from the learner who
performs the learning while not seeing the contexts. We assume that contexts
are generated from a distribution and propose a method that uses $\approx 5d$
bits per context for the case of unknown context distribution and $0$ bits per
context if the context distribution is known, while achieving nearly the same
regret bound as if the contexts were directly observable. The former bound
improves upon existing bounds by a $\log(T)$ factor, where $T$ is the length of
the horizon, while the latter achieves information theoretical tightness.
- Abstract(参考訳): 文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。
最近、このセットアップは、通信制約がパフォーマンスのボトルネックになり得る、特に大きな$d$次元空間から得られるコンテキストにおいて、無線上のアプリケーションに多くの関心を寄せている。
本稿では,文脈を観察し行動を取るエージェントが,文脈を知らないまま学習を行う学習者と地理的に分離される分散メモリレス文脈線形帯域学習問題について考察する。
我々は、コンテキストが分布から生成されると仮定し、未知のコンテキスト分布の場合、1コンテキストあたり$\approx 5d$bitと、コンテキスト分布が分かっている場合、1コンテキスト当たり$0$bitを使用する方法を提案する。
前者境界は既存の境界を$\log(T)$ factorで改善し、ここでは$T$は地平線の長さであり、後者は情報理論的厳密性を達成する。
関連論文リスト
- Optimal cross-learning for contextual bandits with unknown context
distributions [28.087360479901978]
本稿では,バルセイロ等のクロスラーニング環境において,文脈的包括的アルゴリズムを設計する際の問題点について考察する。
コンテクスト数によらずに$widetildeO(sqrtTK)$というほぼ厳密な(対数的要因まで)後悔境界を持つ効率的なアルゴリズムを提供する。
アルゴリズムのコアとなるのは,複数のエポックにまたがるアルゴリズムの実行をコーディネートする新しい手法である。
論文 参考訳(メタデータ) (2024-01-03T18:02:13Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - An Adaptive Deep RL Method for Non-Stationary Environments with
Piecewise Stable Context [109.49663559151377]
未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのどちらかである。
本稿では,textittextbfSegmented textbfContext textbfBelief textbfAugmented textbfDeep(SeCBAD) RL法を提案する。
提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,観測データを用いたより正確な信念コンテキスト推定を行う。
論文 参考訳(メタデータ) (2022-12-24T13:43:39Z) - Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear
Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。
文脈問題を線形バンディット問題として解くことができることを示す。
この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T22:18:53Z) - Communication Efficient Distributed Learning for Kernelized Contextual
Bandits [58.78878127799718]
分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に対処する。
我々は、エージェントが再現されたカーネルヒルベルト空間で協調的に探索できるようにすることにより、非線形報酬写像を考える。
我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。
論文 参考訳(メタデータ) (2022-06-10T01:39:15Z) - Reinforcement Learning in Presence of Discrete Markovian Context
Evolution [7.467644044726776]
a) 直接観測不可能な文脈の未知の有限個の数、b) エピソード中に突然発生する(不連続な)文脈変化、c) マルコフ的文脈進化を特徴とする文脈依存強化学習環境を考える。
我々はモデル学習に先立って、粘着した階層的ディリクレプロセス(HDP)を適用する。
これら2つのコンポーネントの組み合わせによって、コンテキストの濃度仮定を扱うデータからコンテキストの数を推測することが可能である、と我々は主張する。
論文 参考訳(メタデータ) (2022-02-14T08:52:36Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。