論文の概要: Practical Contextual Bandits with Feedback Graphs
- arxiv url: http://arxiv.org/abs/2302.08631v3
- Date: Fri, 27 Oct 2023 00:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:44:30.236748
- Title: Practical Contextual Bandits with Feedback Graphs
- Title(参考訳): フィードバックグラフを用いた実践的コンテキスト帯域
- Authors: Mengxiao Zhang, Yuheng Zhang, Olga Vrousgou, Haipeng Luo, Paul Mineiro
- Abstract要約: 回帰への還元に基づくフィードバックグラフを用いて,文脈的帯域幅に対するアプローチを提案し,解析する。
結果のアルゴリズムは計算学的に実用的であり、確立されたミニマックスレートを達成する。
- 参考スコア(独自算出の注目度): 44.76976254893256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While contextual bandit has a mature theory, effectively leveraging different
feedback patterns to enhance the pace of learning remains unclear. Bandits with
feedback graphs, which interpolates between the full information and bandit
regimes, provides a promising framework to mitigate the statistical complexity
of learning. In this paper, we propose and analyze an approach to contextual
bandits with feedback graphs based upon reduction to regression. The resulting
algorithms are computationally practical and achieve established minimax rates,
thereby reducing the statistical complexity in real-world applications.
- Abstract(参考訳): 文脈的帯域幅は成熟した理論を持つが、学習のペースを高めるために様々なフィードバックパターンを効果的に活用することは、まだ不明である。
フィードバックグラフを持つバンドは、全情報と帯域構成を補間し、学習の統計的複雑さを軽減するための有望なフレームワークを提供する。
本稿では,回帰への還元に基づくフィードバックグラフを用いた文脈的包帯に対するアプローチを提案し,分析する。
得られたアルゴリズムは計算的に実用的であり、確立されたミニマックスレートを達成する。
関連論文リスト
- Mode Estimation with Partial Feedback [20.426429576184145]
弱教師付き・能動的学習の中核的な側面を簡単な問題で定式化する。
エントロピー符号化が部分フィードバックから最適な情報取得を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-20T15:24:21Z) - Efficient Contextual Bandits with Uninformed Feedback Graphs [48.77120088347271]
フィードバックグラフを持つバンディットは、完全な情報と古典的なバンディットの問題を補間する強力なオンライン学習モデルである。
ここでは,2乗損失ではなくログ損失を用いてグラフを学習し,良好な後悔の保証を得ることが重要であることを示す。
論文 参考訳(メタデータ) (2024-02-12T23:50:47Z) - Improved Algorithms for Bandit with Graph Feedback via Regret
Decomposition [2.3034251503343466]
グラフフィードバックによるバンディットの問題は、マルチアームバンディット(MAB)問題と専門家のアドバイスによる学習の両方を一般化する。
本稿では,フィードバックグラフの分割に基づく新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T13:07:42Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - One-shot Learning for Temporal Knowledge Graphs [49.41854171118697]
時間的知識グラフにおけるリンク予測のためのワンショット学習フレームワークを提案する。
提案手法は,実体間の時間的相互作用を効果的に符号化する自己認識機構を用いる。
実験の結果,提案アルゴリズムは2つのよく研究されたベンチマークにおいて,アートベースラインの状態よりも優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:24:44Z) - Addressing Class Imbalance in Scene Graph Parsing by Learning to
Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。
最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。
本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T13:57:59Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z) - Reinforcement Learning with Feedback Graphs [69.1524391595912]
エージェントがステップ毎に追加のフィードバックを受けた場合,決定過程におけるエピソード強化学習について検討する。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
論文 参考訳(メタデータ) (2020-05-07T22:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。