Fugu-MT 論文翻訳(概要): Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

論文の概要: Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

arxiv url: http://arxiv.org/abs/2306.14872v3
Date: Sat, 30 Dec 2023 20:16:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 02:07:54.276122
Title: Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits
Title（参考訳）: 線形バンドイットの性能と理論的保証のバランスをとる幾何アウェアアプローチ
Authors: Yuwei Luo, Mohsen Bayati
Abstract要約: トンプソンサンプリングとグリーディは有望な経験的性能を示したが、これは悲観的な理論的後悔の境界とは対照的である。本研究では不確実楕円体の幾何学的特性を追跡する新しいデータ駆動手法を提案する。ベースアルゴリズムが不十分な問題インスタンスを特定し,コース修正する。
参考スコア（独自算出の注目度）: 6.907555940790131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper is motivated by recent research in the $d$-dimensional stochastic linear bandit literature, which has revealed an unsettling discrepancy: algorithms like Thompson sampling and Greedy demonstrate promising empirical performance, yet this contrasts with their pessimistic theoretical regret bounds. The challenge arises from the fact that while these algorithms may perform poorly in certain problem instances, they generally excel in typical instances. To address this, we propose a new data-driven technique that tracks the geometric properties of the uncertainty ellipsoid around the main problem parameter. This methodology enables us to formulate an instance-dependent frequentist regret bound, which incorporates the geometric information, for a broad class of base algorithms, including Greedy, OFUL, and Thompson sampling. This result allows us to identify and ``course-correct" problem instances in which the base algorithms perform poorly. The course-corrected algorithms achieve the minimax optimal regret of order $\tilde{\mathcal{O}}(d\sqrt{T})$ for a $T$-period decision-making scenario, effectively maintaining the desirable attributes of the base algorithms, including their empirical efficacy. We present simulation results to validate our findings using synthetic and real data.
Abstract（参考訳）: 本論文は,d$-dimensional stochastic linear bandit literature(d$-dimensional stochastic linear bandit literature)における最近の研究の動機である。この課題は、これらのアルゴリズムが特定の問題インスタンスではうまく機能しないが、典型例では優れているという事実から生じる。そこで本研究では,問題パラメータ周辺の不確かさ楕円の幾何学的性質を追跡する新しいデータ駆動手法を提案する。この手法により,Greedy,OFUL,Thompson サンプリングを含む幅広いアルゴリズムに対して,幾何情報を含むインスタンス依存の頻繁な後悔境界を定式化することができる。この結果、ベースアルゴリズムが性能が悪い問題インスタンスを識別して ``course-correct" することができる。コース修正アルゴリズムは、$T$周期決定シナリオに対して$\tilde{\mathcal{O}}(d\sqrt{T})$のミニマックス最適後悔を達成し、その経験的有効性を含む基本アルゴリズムの望ましい属性を効果的に維持する。シミュレーションの結果を合成データと実データを用いて検証する。

関連論文リスト

Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains [67.71020482405343]
評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-01-31T08:38:21Z)
A Polynomial-time Algorithm for Online Sparse Linear Regression with Improved Regret Bound under Weaker Conditions [75.69959433669244]
オンラインスパース線形回帰(OSLR)では,予測のために1インスタンスあたり$d$あたり$k$しかアクセスできない。提案手法では, 過去の後悔点を大幅に改善する拡張時間アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-10-31T05:02:33Z)
E-LDA: Toward Interpretable LDA Topic Models with Strong Guarantees in Logarithmic Parallel Time [2.810160553339817]
LDAトピックモデルにおいて、各文書に割り当てられたトピックを推測する問題に対して、証明可能な保証を備えた最初の実用的なアルゴリズムを提供する。これは、社会科学、データ探索、因果推論設定におけるトピックモデルの多くの応用における主要な推論問題である。
論文参考訳（メタデータ） (2025-06-06T07:05:48Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Primal-dual algorithm for contextual stochastic combinatorial optimization [1.4999444543328293]
本稿では,不確実性のある意思決定に対処するために,運用研究と機械学習を統合する,文脈最適化の新しいアプローチを提案する。我々の目標は、不確実なパラメータやコンテキストに関する過去のデータから推定される経験的リスクを最小化することです。
論文参考訳（メタデータ） (2025-05-07T19:37:12Z)
Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文参考訳（メタデータ） (2024-10-22T10:19:27Z)
Integer Programming for Learning Directed Acyclic Graphs from Non-identifiable Gaussian Models [6.54203362045253]
本研究では,連続観測データから有向非巡回グラフを学習する問題について検討する。中規模の問題を学習するための混合整数プログラミングフレームワークを開発した。提案手法は最先端のアルゴリズムより優れ,ノイズの不均一性に対して頑健である。
論文参考訳（メタデータ） (2024-04-19T02:42:13Z)
Towards Practical Robustness Auditing for Linear Regression [8.9598796481325]
データセットの小さなサブセットの存在を発見または否定するアルゴリズムについて検討する。これらの手法は, 技術の状況を大きく上回り, 数次元における回帰問題の堅牢性チェックに有用であることを示す。我々は、アルゴリズムの頑健な統計学における最近の革新から引き出されたアイデアを用いて、スペクトルアルゴリズムを用いて、この課題を先導する。
論文参考訳（メタデータ） (2023-07-30T20:47:36Z)
Comprehensive Algorithm Portfolio Evaluation using Item Response Theory [0.19116784879310023]
IRTは、単一の分類データセット上での機械学習アルゴリズムのパフォーマンスを評価するために応用されている。我々は、データセットのリポジトリにまたがるアルゴリズムのポートフォリオを評価するためのIRTベースの修正フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-29T00:48:29Z)
High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-19T15:29:32Z)
Regret Bounds for Expected Improvement Algorithms in Gaussian Process Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文参考訳（メタデータ） (2022-03-15T13:17:53Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。 SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文参考訳（メタデータ） (2021-09-13T18:10:52Z)
Sparse PCA: Algorithms, Adversarial Perturbations and Certificates [9.348107805982604]
標準統計モデルにおけるスパースPCAの効率的なアルゴリズムについて検討する。私たちのゴールは、小さな摂動に耐性を持ちながら、最適な回復保証を達成することです。
論文参考訳（メタデータ） (2020-11-12T18:58:51Z)
Quantum-Inspired Algorithms from Randomized Numerical Linear Algebra [53.46106569419296]
我々は、リコメンダシステムと最小二乗回帰のためのクエリをサポートする古典的な(量子でない)動的データ構造を作成する。これらの問題に対する以前の量子インスパイアされたアルゴリズムは、レバレッジやリッジレベレッジスコアを偽装してサンプリングしていると我々は主張する。
論文参考訳（メタデータ） (2020-11-09T01:13:07Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文参考訳（メタデータ） (2020-07-01T18:43:32Z)
Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文参考訳（メタデータ） (2020-03-06T16:17:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。