論文の概要: Online Learning in Contextual Bandits using Gated Linear Networks
- arxiv url: http://arxiv.org/abs/2002.11611v2
- Date: Fri, 20 Nov 2020 09:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:16:37.083496
- Title: Online Learning in Contextual Bandits using Gated Linear Networks
- Title(参考訳): Gated Linear Networks を用いたコンテキスト帯域でのオンライン学習
- Authors: Eren Sezener, Marcus Hutter, David Budden, Jianan Wang, Joel Veness
- Abstract要約: Gated Linear Contextual Bandits (GLCB) と呼ばれる新しいオンラインコンテクストブリストアルゴリズムを導入する。
GLCBはGated Linear Networks (GLNs)をベースにしている。
我々は、ディープニューラルネットワークを利用する9つの最先端アルゴリズムと比較して、GLCBを実証的に評価する。
- 参考スコア(独自算出の注目度): 27.784804411566405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new and completely online contextual bandit algorithm called
Gated Linear Contextual Bandits (GLCB). This algorithm is based on Gated Linear
Networks (GLNs), a recently introduced deep learning architecture with
properties well-suited to the online setting. Leveraging data-dependent gating
properties of the GLN we are able to estimate prediction uncertainty with
effectively zero algorithmic overhead. We empirically evaluate GLCB compared to
9 state-of-the-art algorithms that leverage deep neural networks, on a standard
benchmark suite of discrete and continuous contextual bandit problems. GLCB
obtains median first-place despite being the only online method, and we further
support these results with a theoretical study of its convergence properties.
- Abstract(参考訳): 本稿では,新しい完全オンラインコンテキストバンディットアルゴリズムであるgated linear context bandits (glcb)を提案する。
このアルゴリズムは、最近導入されたディープラーニングアーキテクチャであるGated Linear Networks (GLNs)をベースとしている。
GLNのデータ依存ゲーティング特性を活用することで、アルゴリズムのオーバーヘッドを効果的にゼロにする予測の不確実性を推定できる。
我々は、離散的かつ連続的なコンテキスト的バンディット問題の標準ベンチマークスイートにおいて、ディープニューラルネットワークを利用する9つの最先端アルゴリズムと比較して、GLCBを実証的に評価する。
GLCBは唯一のオンライン手法であるにもかかわらず、中央値の1位を獲得し、これらの結果をさらに支援し、収束特性の理論的研究を行う。
関連論文リスト
- On the Generalization Capability of Temporal Graph Learning Algorithms:
Theoretical Insights and a Simpler Method [59.52204415829695]
テンポラルグラフ学習(TGL)は、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。
本稿では,異なるTGLアルゴリズムの一般化能力について検討する。
一般化誤差が小さく、全体的な性能が向上し、モデルの複雑さが低下する単純化されたTGLネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T08:22:22Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - GLAN: A Graph-based Linear Assignment Network [29.788755291070462]
深層グラフネットワークに基づく学習可能な線形代入問題の解法を提案する。
合成データセットによる実験結果から,本手法は最先端のベースラインよりも優れていることがわかった。
また,提案手法を一般的なマルチオブジェクトトラッキング(MOT)フレームワークに組み込んで,エンド・ツー・エンドでトラッカーをトレーニングする。
論文 参考訳(メタデータ) (2022-01-05T13:18:02Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization [42.865641215856925]
本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
論文 参考訳(メタデータ) (2021-11-27T03:57:13Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Graph Neighborhood Attentive Pooling [0.5493410630077189]
ネットワーク表現学習(NRL)は,高次元およびスパースグラフの低次元ベクトル表現を学習するための強力な手法である。
本稿では,ノード近傍の異なる部分への入場を注意型プールネットワークを用いて学習するGAPと呼ばれる新しい文脈依存アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-28T15:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。