論文の概要: Instance-Dependent Regret Bounds for Nonstochastic Linear Partial Monitoring
- arxiv url: http://arxiv.org/abs/2510.19158v1
- Date: Wed, 22 Oct 2025 01:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.917656
- Title: Instance-Dependent Regret Bounds for Nonstochastic Linear Partial Monitoring
- Title(参考訳): 非確率線形部分モニタリングのためのインスタンス依存回帰境界
- Authors: Federico Di Gennaro, Khaled Eldowa, Nicolò Cesa-Bianchi,
- Abstract要約: 本稿では, 探索・最適化法の簡単な例を通して, 確率的でない有限作用版を提案する。
我々は、過去の理論的保証よりも透明な方法でゲーム構造に依存する後悔境界を導出する。
- 参考スコア(独自算出の注目度): 15.614225760184633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to the classic formulation of partial monitoring, linear partial monitoring can model infinite outcome spaces, while imposing a linear structure on both the losses and the observations. This setting can be viewed as a generalization of linear bandits where loss and feedback are decoupled in a flexible manner. In this work, we address a nonstochastic (adversarial), finite-actions version of the problem through a simple instance of the exploration-by-optimization method that is amenable to efficient implementation. We derive regret bounds that depend on the game structure in a more transparent manner than previous theoretical guarantees for this paradigm. Our bounds feature instance-specific quantities that reflect the degree of alignment between observations and losses, and resemble known guarantees in the stochastic setting. Notably, they achieve the standard $\sqrt{T}$ rate in easy (locally observable) games and $T^{2/3}$ in hard (globally observable) games, where $T$ is the time horizon. We instantiate these bounds in a selection of old and new partial information settings subsumed by this model, and illustrate that the achieved dependence on the game structure can be tight in interesting cases.
- Abstract(参考訳): 古典的な部分的監視の定式化とは対照的に、線形部分的監視は無限の結果空間をモデル化し、損失と観測の両方に線形構造を与える。
この設定は、損失とフィードバックを柔軟な方法で分離する線形帯域の一般化と見なすことができる。
本研究では,効率的な実装が可能な探索・最適化手法の簡単な例を通して,非確率的(対数的)有限作用型に対処する。
我々は、このパラダイムの以前の理論的保証よりも、ゲーム構造に依存している後悔の限界をより透明に導き出す。
我々の境界は、観測と損失の一致の度合いを反映したインスタンス固有の量であり、確率的な設定における既知の保証と似ている。
特に、標準的な$\sqrt{T}$ rate in easy (locally observable) games and $T^{2/3}$ in hard (globally observable) games, where $T$ is the time horizon。
このモデルによって仮定される新旧部分的情報設定の選択において,これらの境界をインスタンス化し,ゲーム構造に対する達成された依存が興味深い場合において厳密であることを示す。
関連論文リスト
- Beyond Worst-Case Online Classification: VC-Based Regret Bounds for Relaxed Benchmarks [19.642496463491053]
我々は、オンラインバイナリ分類を再考し、最良クラスのバイナリ損失との競合から、緩やかなベンチマークとの競合へと焦点を移した。
我々は、小さな入力摂動に対して頑健な予測器の比較、ガウス平滑化下での良好な性能、あるいは所定の出力マージンを維持することを検討する。
我々のアルゴリズムは、VC次元とインスタンス空間の複雑さにのみ依存する後悔の保証を達成する。
論文 参考訳(メタデータ) (2025-04-14T18:00:23Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium [62.88214569402201]
現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
論文 参考訳(メタデータ) (2023-12-27T15:21:25Z) - Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective
and Improved Bounds [12.699376765058137]
勾配降下法(SGD)は、おそらく現代の機械学習において最も一般的な最適化法である。
SGDを交換せずにサンプリングするSGDが分析されたのはごく最近のことだ。
データマトリックスに依存し、既存の境界によって予測されるものよりも決して悪くない、きめ細かい複雑性境界を証明します。
論文 参考訳(メタデータ) (2023-06-21T18:14:44Z) - A Robustness Analysis of Blind Source Separation [91.3755431537592]
ブラインドソース分離(BSS)は、変換$f$が可逆であるが未知であるという条件の下で、その混合である$X=f(S)$から観測されていない信号を復元することを目的としている。
このような違反を分析し、その影響を$X$から$S$のブラインドリカバリに与える影響を定量化するための一般的なフレームワークを提案する。
定義された構造的仮定からの偏差に対する一般的なBSS溶出は、明示的な連続性保証という形で、利益的に分析可能であることを示す。
論文 参考訳(メタデータ) (2023-03-17T16:30:51Z) - Tighter PAC-Bayes Generalisation Bounds by Leveraging Example Difficulty [5.799808780731661]
過剰リスクの修正版を導入します。
より厳密で高速なPAC-ベイジアン一般化境界を得るのに使うことができる。
我々は、これらの新しい境界を実世界のデータセットで実証的に評価する。
論文 参考訳(メタデータ) (2022-10-20T14:14:52Z) - Exploration in Linear Bandits with Rich Action Sets and its Implications
for Inference [23.364534479492715]
期待行列の最小固有値は、アルゴリズムの累積後悔が$sqrtn)$であるときに、$Omega(sqrtn)として増加することを示す。
本研究は, 線形帯域におけるEmphmodel selectionとEmphclusteringの2つの実践シナリオに適用する。
論文 参考訳(メタデータ) (2022-07-23T20:25:07Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems [6.261682379939611]
時間の地平線で等級$sqrtT$のスケーリングを示す、残念な低い境界を導出します。
私たちの境界は制御理論パラメータの役割を正確に捉えており、制御が難しいシステムも制御が難しいことを示すことができます。
論文 参考訳(メタデータ) (2022-01-05T16:19:16Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。