論文の概要: Beyond Softmax: A New Perspective on Gradient Bandits
- arxiv url: http://arxiv.org/abs/2510.03979v1
- Date: Sat, 04 Oct 2025 23:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.369508
- Title: Beyond Softmax: A New Perspective on Gradient Bandits
- Title(参考訳): Beyond Softmax: グラディエントバンドの新しい視点
- Authors: Emerson Melo, David Müller,
- Abstract要約: 我々は,個別選択モデルのクラスとオンライン学習理論とマルチアームバンディットの関連性を確立する。
i) Exp3を特別なケースとして含む,広いアルゴリズム系に対するサブ線形後悔境界; (ii) 一般化ネストロジットモデルから導かれる新たな対角帯域アルゴリズムのクラス citepwen:2001; および (iii) テキストカラーブラック 我々は,広く使用されているソフトマックスの定式化を超えて,新しい一般化勾配帯域アルゴリズムのクラスを導入する。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We establish a link between a class of discrete choice models and the theory of online learning and multi-armed bandits. Our contributions are: (i) sublinear regret bounds for a broad algorithmic family, encompassing Exp3 as a special case; (ii) a new class of adversarial bandit algorithms derived from generalized nested logit models \citep{wen:2001}; and (iii) \textcolor{black}{we introduce a novel class of generalized gradient bandit algorithms that extends beyond the widely used softmax formulation. By relaxing the restrictive independence assumptions inherent in softmax, our framework accommodates correlated learning dynamics across actions, thereby broadening the applicability of gradient bandit methods.} Overall, the proposed algorithms combine flexible model specification with computational efficiency via closed-form sampling probabilities. Numerical experiments in stochastic bandit settings demonstrate their practical effectiveness.
- Abstract(参考訳): 我々は,個別選択モデルのクラスとオンライン学習理論とマルチアームバンディットの関連性を確立する。
私たちの貢献は次のとおりです。
i) Exp3を特別の場合として包含する広義のアルゴリズム系に対するサブ線形後悔境界
(ii)一般化ネストロジットモデル \citep{wen:2001} から導かれる新しい逆帯域アルゴリズム
(iii) \textcolor{black}{we は、広く使われているソフトマックスの定式化を超えて拡張される一般化された勾配帯域幅アルゴリズムの新たなクラスを導入する。
ソフトマックスに固有の制約的独立性の仮定を緩和することにより、我々のフレームワークは行動間の相関学習のダイナミクスに対応し、勾配帯域法の適用性を広げる。
全体として、提案アルゴリズムは、フレキシブルモデル仕様とクローズドフォームサンプリング確率による計算効率を組み合わせている。
確率的バンディット設定における数値実験は,その実用性を示している。
関連論文リスト
- Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Discrete Choice Multi-Armed Bandits [0.0]
本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。
我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。
一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-10-01T03:41:04Z) - Linear Bandits with Memory: from Rotting to Rising [5.5969337839476765]
推奨における飽和効果のような非定常現象は、主に有限個の腕を持つ包帯を用いてモデル化されている。
固定サイズウィンドウにおける学習者の過去の行動の影響を受けない,非定常線形バンディットモデルを提案する。
論文 参考訳(メタデータ) (2023-02-16T15:02:07Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Gradient Estimation with Stochastic Softmax Tricks [84.68686389163153]
Gumbel-Softmax のトリックを空間に一般化するソフトマックスのトリックを導入する。
ソフトマックスのトリックは、より優れた性能を示す潜在変数モデルを訓練し、より潜時構造を発見するのに利用できる。
論文 参考訳(メタデータ) (2020-06-15T00:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。