Fugu-MT 論文翻訳(概要): Learning in Distributed Contextual Linear Bandits Without Sharing the Context

論文の概要: Learning in Distributed Contextual Linear Bandits Without Sharing the Context

arxiv url: http://arxiv.org/abs/2206.04180v1
Date: Wed, 8 Jun 2022 22:07:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-11 05:10:57.960211
Title: Learning in Distributed Contextual Linear Bandits Without Sharing the Context
Title（参考訳）: 文脈を共有しない分散文脈線形帯域での学習
Authors: Osama A. Hanna, Lin F. Yang, Christina Fragouli
Abstract要約: 文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。本稿では,分散メモリレス文脈線形帯域学習問題について考察する。
参考スコア（独自算出の注目度）: 39.70492757288025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contextual linear bandits is a rich and theoretically important model that has many practical applications. Recently, this setup gained a lot of interest in applications over wireless where communication constraints can be a performance bottleneck, especially when the contexts come from a large $d$-dimensional space. In this paper, we consider a distributed memoryless contextual linear bandit learning problem, where the agents who observe the contexts and take actions are geographically separated from the learner who performs the learning while not seeing the contexts. We assume that contexts are generated from a distribution and propose a method that uses $\approx 5d$ bits per context for the case of unknown context distribution and $0$ bits per context if the context distribution is known, while achieving nearly the same regret bound as if the contexts were directly observable. The former bound improves upon existing bounds by a $\log(T)$ factor, where $T$ is the length of the horizon, while the latter achieves information theoretical tightness.
Abstract（参考訳）: 文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。最近、このセットアップは、通信制約がパフォーマンスのボトルネックになり得る、特に大きな$d$次元空間から得られるコンテキストにおいて、無線上のアプリケーションに多くの関心を寄せている。本稿では,文脈を観察し行動を取るエージェントが,文脈を知らないまま学習を行う学習者と地理的に分離される分散メモリレス文脈線形帯域学習問題について考察する。我々は、コンテキストが分布から生成されると仮定し、未知のコンテキスト分布の場合、1コンテキストあたり$\approx 5d$bitと、コンテキスト分布が分かっている場合、1コンテキスト当たり$0$bitを使用する方法を提案する。前者境界は既存の境界を$\log(T)$ factorで改善し、ここでは$T$は地平線の長さであり、後者は情報理論的厳密性を達成する。

関連論文リスト

Fair Exploration and Exploitation [4.368185344922342]
我々は、境界付き損失とは別に、文脈と損失の生成に何の仮定も存在しないという、完全に敵対的な問題を考察する。我々の問題では、コンテキストセットが保護されたグループの集合に分割されていると仮定する。本稿では,この問題に対するFexExアルゴリズムを開発し,その効率性について述べる。
論文参考訳（メタデータ） (2024-11-06T22:25:56Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
On the Optimal Regret of Locally Private Linear Contextual Bandit [18.300225068036642]
局所的なプライベートな文脈的帯域に対して,$tilde O(sqrtT)$ regret upper bound を達成可能であることを示す。我々の解決策は、いくつかの新しいアルゴリズム的および分析的アイデアに依存している。
論文参考訳（メタデータ） (2024-04-15T02:00:24Z)
LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。 LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文参考訳（メタデータ） (2024-04-11T17:57:22Z)
Optimal cross-learning for contextual bandits with unknown context distributions [28.087360479901978]
本稿では,バルセイロ等のクロスラーニング環境において,文脈的包括的アルゴリズムを設計する際の問題点について考察する。コンテクスト数によらずに$widetildeO(sqrtTK)$というほぼ厳密な(対数的要因まで)後悔境界を持つ効率的なアルゴリズムを提供する。アルゴリズムのコアとなるのは,複数のエポックにまたがるアルゴリズムの実行をコーディネートする新しい手法である。
論文参考訳（メタデータ） (2024-01-03T18:02:13Z)
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。 V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文参考訳（メタデータ） (2023-05-01T14:00:15Z)
An Adaptive Deep RL Method for Non-Stationary Environments with Piecewise Stable Context [109.49663559151377]
未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのどちらかである。本稿では,textittextbfSegmented textbfContext textbfBelief textbfAugmented textbfDeep(SeCBAD) RL法を提案する。提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,観測データを用いたより正確な信念コンテキスト推定を行う。
論文参考訳（メタデータ） (2022-12-24T13:43:39Z)
Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。文脈問題を線形バンディット問題として解くことができることを示す。この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文参考訳（メタデータ） (2022-11-08T22:18:53Z)
Communication Efficient Distributed Learning for Kernelized Contextual Bandits [58.78878127799718]
分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に対処する。我々は、エージェントが再現されたカーネルヒルベルト空間で協調的に探索できるようにすることにより、非線形報酬写像を考える。我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。
論文参考訳（メタデータ） (2022-06-10T01:39:15Z)
Measuring and Increasing Context Usage in Context-Aware Machine Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文参考訳（メタデータ） (2021-05-07T19:55:35Z)
Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文参考訳（メタデータ） (2020-01-09T18:31:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。