論文の概要: Tsetlin Machine for Solving Contextual Bandit Problems
- arxiv url: http://arxiv.org/abs/2202.01914v1
- Date: Fri, 4 Feb 2022 00:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 01:40:10.585953
- Title: Tsetlin Machine for Solving Contextual Bandit Problems
- Title(参考訳): コンテクストバンディット問題を解決するためのtsetlinマシン
- Authors: Raihan Seraj, Jivitesh Sharma, Ole-Christoffer Granmo
- Abstract要約: 本稿では,Tsetlin Machinesを用いた解釈可能なコンテキスト帯域幅アルゴリズムを提案する。
提案した帯域学習アルゴリズムは、簡単なビット操作に依存し、計算と解釈を単純化する。
- 参考スコア(独自算出の注目度): 7.176107039687232
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces an interpretable contextual bandit algorithm using
Tsetlin Machines, which solves complex pattern recognition tasks using
propositional logic. The proposed bandit learning algorithm relies on
straightforward bit manipulation, thus simplifying computation and
interpretation. We then present a mechanism for performing Thompson sampling
with Tsetlin Machine, given its non-parametric nature. Our empirical analysis
shows that Tsetlin Machine as a base contextual bandit learner outperforms
other popular base learners on eight out of nine datasets. We further analyze
the interpretability of our learner, investigating how arms are selected based
on propositional expressions that model the context.
- Abstract(参考訳): 本稿では,命題論理を用いた複雑なパターン認識課題を解決するtsetlinマシンを用いた解釈可能なコンテキストバンディットアルゴリズムを提案する。
提案した帯域学習アルゴリズムは、簡単なビット操作に依存し、計算と解釈を単純化する。
次に、その非パラメトリックな性質から、Tsetlin Machineを用いてトンプソンサンプリングを行うメカニズムを提案する。
実験結果から,ベースコンテクストバンディット学習者としてのtsetlinマシンは,9つのデータセットのうち8つにおいて,他の人気ベース学習者よりも優れていた。
さらに,文脈をモデル化する命題表現に基づいて,学習者の解釈可能性を分析し,腕の選択方法を検討する。
関連論文リスト
- Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits [15.342585350280535]
本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。
本稿では,予測勾配勾配(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T22:30:29Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Selecting Interpretability Techniques for Healthcare Machine Learning models [69.65384453064829]
医療では、いくつかの意思決定シナリオにおいて、医療専門家を支援するために解釈可能なアルゴリズムを採用することが追求されている。
本稿では, ポストホックとモデルベースという8つのアルゴリズムを概説する。
論文 参考訳(メタデータ) (2024-06-14T17:49:04Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Analysis of Thompson Sampling for Partially Observable Contextual
Multi-Armed Bandits [1.8275108630751844]
我々は、部分的に観測可能なコンテキスト多重武装バンディットのためのトンプソンサンプリングアルゴリズムを提案する。
提示された政策の後悔は、時間と武器の数に応じて対数的にスケールし、寸法と直線的にスケールすることを示す。
論文 参考訳(メタデータ) (2021-10-23T08:51:49Z) - Double-Linear Thompson Sampling for Context-Attentive Bandits [27.786695164493562]
我々は、様々な実践的応用を動機とした、Context-Attentive Banditとして知られるオンライン学習フレームワークを分析・拡張する。
本研究では, 線形トンプソンサンプリング法に基づいて, コンテキストアテンティブ・トンプソンサンプリング(CATS)と呼ばれる新しいアルゴリズムを導出し, コンテキストアテンティブ・バンディット設定に適用する。
論文 参考訳(メタデータ) (2020-10-15T13:01:19Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Contextual Bandits for adapting to changing User preferences over time [0.4061135251278187]
コンテキストブレイディットは、オンライン(インクリメンタル)学習を活用することで、MLの動的データ問題をモデル化する効果的な方法を提供する。
我々は,行動に基づく学習者の配列を用いて,この問題を解決する新しいアルゴリズムを構築した。
我々は、標準のMine Lensデータセットから異なるユーザーによって、時間の経過とともに映画のレーティングを予測するためにこのアプローチを適用する。
論文 参考訳(メタデータ) (2020-09-21T12:17:42Z) - Efficient Contextual Bandits with Continuous Actions [102.64518426624535]
我々は、未知の構造を持つ連続的な動作を持つ文脈的包帯に対する計算的に抽出可能なアルゴリズムを作成する。
我々の還元型アルゴリズムは、ほとんどの教師付き学習表現で構成される。
論文 参考訳(メタデータ) (2020-06-10T19:38:01Z) - Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。
提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。
ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T17:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。