論文の概要: Learning in Distributed Contextual Linear Bandits Without Sharing the
Context
- arxiv url: http://arxiv.org/abs/2206.04180v1
- Date: Wed, 8 Jun 2022 22:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 05:10:57.960211
- Title: Learning in Distributed Contextual Linear Bandits Without Sharing the
Context
- Title(参考訳): 文脈を共有しない分散文脈線形帯域での学習
- Authors: Osama A. Hanna, Lin F. Yang, Christina Fragouli
- Abstract要約: 文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。
本稿では,分散メモリレス文脈線形帯域学習問題について考察する。
- 参考スコア(独自算出の注目度): 39.70492757288025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual linear bandits is a rich and theoretically important model that
has many practical applications. Recently, this setup gained a lot of interest
in applications over wireless where communication constraints can be a
performance bottleneck, especially when the contexts come from a large
$d$-dimensional space. In this paper, we consider a distributed memoryless
contextual linear bandit learning problem, where the agents who observe the
contexts and take actions are geographically separated from the learner who
performs the learning while not seeing the contexts. We assume that contexts
are generated from a distribution and propose a method that uses $\approx 5d$
bits per context for the case of unknown context distribution and $0$ bits per
context if the context distribution is known, while achieving nearly the same
regret bound as if the contexts were directly observable. The former bound
improves upon existing bounds by a $\log(T)$ factor, where $T$ is the length of
the horizon, while the latter achieves information theoretical tightness.
- Abstract(参考訳): 文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。
最近、このセットアップは、通信制約がパフォーマンスのボトルネックになり得る、特に大きな$d$次元空間から得られるコンテキストにおいて、無線上のアプリケーションに多くの関心を寄せている。
本稿では,文脈を観察し行動を取るエージェントが,文脈を知らないまま学習を行う学習者と地理的に分離される分散メモリレス文脈線形帯域学習問題について考察する。
我々は、コンテキストが分布から生成されると仮定し、未知のコンテキスト分布の場合、1コンテキストあたり$\approx 5d$bitと、コンテキスト分布が分かっている場合、1コンテキスト当たり$0$bitを使用する方法を提案する。
前者境界は既存の境界を$\log(T)$ factorで改善し、ここでは$T$は地平線の長さであり、後者は情報理論的厳密性を達成する。
関連論文リスト
- Fair Exploration and Exploitation [4.368185344922342]
我々は、境界付き損失とは別に、文脈と損失の生成に何の仮定も存在しないという、完全に敵対的な問題を考察する。
我々の問題では、コンテキストセットが保護されたグループの集合に分割されていると仮定する。
本稿では,この問題に対するFexExアルゴリズムを開発し,その効率性について述べる。
論文 参考訳(メタデータ) (2024-11-06T22:25:56Z) - On the Optimal Regret of Locally Private Linear Contextual Bandit [18.300225068036642]
局所的なプライベートな文脈的帯域に対して,$tilde O(sqrtT)$ regret upper bound を達成可能であることを示す。
我々の解決策は、いくつかの新しいアルゴリズム的および分析的アイデアに依存している。
論文 参考訳(メタデータ) (2024-04-15T02:00:24Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Optimal cross-learning for contextual bandits with unknown context
distributions [28.087360479901978]
本稿では,バルセイロ等のクロスラーニング環境において,文脈的包括的アルゴリズムを設計する際の問題点について考察する。
コンテクスト数によらずに$widetildeO(sqrtTK)$というほぼ厳密な(対数的要因まで)後悔境界を持つ効率的なアルゴリズムを提供する。
アルゴリズムのコアとなるのは,複数のエポックにまたがるアルゴリズムの実行をコーディネートする新しい手法である。
論文 参考訳(メタデータ) (2024-01-03T18:02:13Z) - An Adaptive Deep RL Method for Non-Stationary Environments with
Piecewise Stable Context [109.49663559151377]
未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのどちらかである。
本稿では,textittextbfSegmented textbfContext textbfBelief textbfAugmented textbfDeep(SeCBAD) RL法を提案する。
提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,観測データを用いたより正確な信念コンテキスト推定を行う。
論文 参考訳(メタデータ) (2022-12-24T13:43:39Z) - Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear
Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。
文脈問題を線形バンディット問題として解くことができることを示す。
この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T22:18:53Z) - Communication Efficient Distributed Learning for Kernelized Contextual
Bandits [58.78878127799718]
分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に対処する。
我々は、エージェントが再現されたカーネルヒルベルト空間で協調的に探索できるようにすることにより、非線形報酬写像を考える。
我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。
論文 参考訳(メタデータ) (2022-06-10T01:39:15Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。