論文の概要: Stochastic Graph Bandit Learning with Side-Observations
- arxiv url: http://arxiv.org/abs/2308.15107v2
- Date: Sat, 6 Jan 2024 16:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:15:07.106198
- Title: Stochastic Graph Bandit Learning with Side-Observations
- Title(参考訳): サイドオブザーバを用いた確率グラフ帯域学習
- Authors: Xueping Gong and Jiheng Zhang
- Abstract要約: 基礎となるグラフ構造と報酬ギャップの両方に適応するアルゴリズムを提案する。
我々の知る限りでは、この設定においてギャップ依存の上界を初めて提供するアルゴリズムである。
- 参考スコア(独自算出の注目度): 4.910658441596583
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we investigate the stochastic contextual bandit with general
function space and graph feedback. We propose an algorithm that addresses this
problem by adapting to both the underlying graph structures and reward gaps. To
the best of our knowledge, our algorithm is the first to provide a
gap-dependent upper bound in this stochastic setting, bridging the research gap
left by the work in [35]. In comparison to [31,33,35], our method offers
improved regret upper bounds and does not require knowledge of graphical
quantities. We conduct numerical experiments to demonstrate the computational
efficiency and effectiveness of our approach in terms of regret upper bounds.
These findings highlight the significance of our algorithm in advancing the
field of stochastic contextual bandits with graph feedback, opening up avenues
for practical applications in various domains.
- Abstract(参考訳): 本稿では,一般関数空間とグラフフィードバックを用いた確率的文脈的バンディットについて検討する。
本稿では,基礎となるグラフ構造と報酬ギャップに適応してこの問題に対処するアルゴリズムを提案する。
私たちの知る限りでは、この確率的な設定でギャップ依存の上界を提供するのはアルゴリズムが初めてで、 [35] に残された研究のギャップを橋渡しします。
提案手法は,[31,33,35]と比較して, 後悔の上限を改良し, グラフィカル量の知識を必要としない。
後悔の上限という観点から計算効率と効果を実証するために数値実験を行った。
これらの結果は,確率的文脈帯域の領域をグラフフィードバックで前進させる上でのアルゴリズムの重要性を強調し,様々な領域における実践的応用への道を開いた。
関連論文リスト
- Improved Graph-based semi-supervised learning Schemes [0.0]
本研究では,ラベルの少ない大規模データセットの分類に対処するため,いくつかの既知のアルゴリズムの精度を向上させる。
私たちのフレームワークは、グラフベースの半教師あり学習の領域にあります。
論文 参考訳(メタデータ) (2024-06-30T16:50:08Z) - The graph alignment problem: fundamental limits and efficient algorithms [0.9246334723892301]
グラフ同型問題のノイズバージョンは、エッジの大部分を保存する2つのグラフのノード間のマッチングを見つけることを目的としている。
この論文は、この問題の基本的な情報理論的限界を理解すること、および、基礎となるデータのアライメントを回復できるアルゴリズムを設計および分析することに焦点を当てている。
論文 参考訳(メタデータ) (2024-04-18T15:31:13Z) - Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - Efficient Contextual Bandits with Uninformed Feedback Graphs [48.77120088347271]
フィードバックグラフを持つバンディットは、完全な情報と古典的なバンディットの問題を補間する強力なオンライン学習モデルである。
ここでは,2乗損失ではなくログ損失を用いてグラフを学習し,良好な後悔の保証を得ることが重要であることを示す。
論文 参考訳(メタデータ) (2024-02-12T23:50:47Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Joint graph learning from Gaussian observations in the presence of
hidden nodes [26.133725549667734]
本稿では,隠れ変数の存在を考慮した共同グラフ学習法を提案する。
従来の考察から得られた構造を利用して凸最適化問題を提案する。
提案したアルゴリズムを異なるベースラインで比較し、合成グラフと実世界のグラフ上での性能を評価する。
論文 参考訳(メタデータ) (2022-12-04T13:03:41Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Asymptotic study of stochastic adaptive algorithm in non-convex
landscape [2.1320960069210484]
本稿では、最適化や機械学習に広く用いられる適応アルゴリズムの仮定特性について検討する。
このうちAdagradとRmspropは、ブラックボックスのディープラーニングアルゴリズムの大部分に関与している。
論文 参考訳(メタデータ) (2020-12-10T12:54:45Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Online Dense Subgraph Discovery via Blurred-Graph Feedback [87.9850024070244]
我々は高密度サブグラフ発見のための新しい学習問題を導入する。
まず,確率の高いほぼ最適解を求めるエッジ時間アルゴリズムを提案する。
そして、理論的保証のあるよりスケーラブルなアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-06-24T11:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。