論文の概要: On the Regularity and Fairness of Combinatorial Multi-Armed Bandit
- arxiv url: http://arxiv.org/abs/2509.12457v1
- Date: Mon, 15 Sep 2025 21:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.768491
- Title: On the Regularity and Fairness of Combinatorial Multi-Armed Bandit
- Title(参考訳): コンビニアル・マルチアーマッド・バンドの規則性と公正性について
- Authors: Xiaoyi Wu, Bin Li,
- Abstract要約: 本論文は,無線ネットワークにおける2つの重要な応用から着想を得たものである。
累積報酬を最大化するだけでなく、武器間の公平性を保証することも必要です。
これら3つの目的を達成するために,パラメータ化された正規かつ公正な学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.61754191125565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The combinatorial multi-armed bandit model is designed to maximize cumulative rewards in the presence of uncertainty by activating a subset of arms in each round. This paper is inspired by two critical applications in wireless networks, where it's not only essential to maximize cumulative rewards but also to guarantee fairness among arms (i.e., the minimum average reward required by each arm) and ensure reward regularity (i.e., how often each arm receives the reward). In this paper, we propose a parameterized regular and fair learning algorithm to achieve these three objectives. In particular, the proposed algorithm linearly combines virtual queue-lengths (tracking the fairness violations), Time-Since-Last-Reward (TSLR) metrics, and Upper Confidence Bound (UCB) estimates in its weight measure. Here, TSLR is similar to age-of-information and measures the elapsed number of rounds since the last time an arm received a reward, capturing the reward regularity performance, and UCB estimates are utilized to balance the tradeoff between exploration and exploitation in online learning. By exploring a key relationship between virtual queue-lengths and TSLR metrics and utilizing several non-trivial Lyapunov functions, we analytically characterize zero cumulative fairness violation, reward regularity, and cumulative regret performance under our proposed algorithm. These theoretical outcomes are verified by simulations based on two real-world datasets.
- Abstract(参考訳): 組合せ多腕バンディットモデルは、各ラウンドのアームのサブセットを活性化することにより、不確実性が存在する場合の累積報酬を最大化するように設計されている。
本論文は無線ネットワークにおける2つの重要な応用に着想を得ており、累積報酬を最大化するだけでなく、腕間の公平性(つまり各腕が要求する最小報酬)と報酬規則性(各腕が報酬を受け取る頻度)を保証することが不可欠である。
本稿では,この3つの目的を達成するためのパラメータ化正規かつ公正な学習アルゴリズムを提案する。
特に、提案アルゴリズムは、仮想キュー長(フェアネス違反の追跡)、TSLR(Time-Since-Last-Reward)メトリクス、重み測定におけるアッパー信頼境界(UCB)推定を線形に結合する。
ここでは、TSLRは情報の年齢に似ており、前回アームが報酬を受けた時から経過したラウンド数を計測し、報奨レギュラー性のパフォーマンスを捉え、オンライン学習における探索と搾取のトレードオフのバランスをとるためにUCBの推定値を利用する。
仮想キュー長とTSLRメトリクスの鍵となる関係を探索し、いくつかの非自明なリアプノフ関数を利用することにより、提案アルゴリズムによる累積公正性違反、報酬規則性、累積後悔性能を解析的に特徴付ける。
これらの理論的結果は、2つの実世界のデータセットに基づくシミュレーションによって検証される。
関連論文リスト
- MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching [60.886768806064936]
Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。
既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。
両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
論文 参考訳(メタデータ) (2026-01-15T18:59:23Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Semi-overlapping Multi-bandit Best Arm Identification for Sequential Support Network Learning [0.0]
新しいフレームワークであるSequential Support Network Learningを使用して、スパース候補リストからサポートネットワークを効率的に学習することができる。
本稿は,複数のバンドイットに対して異なるフィードバックを単一評価する半重複型マルチアームバンドイット(SOMMAB)を新たに開発した。
マルチバンド・ベストアーム識別のための指数において、最もよく知られた定数を改善する新しい指数誤差境界を導出する。
論文 参考訳(メタデータ) (2025-12-31T16:42:00Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。
本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。
Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文 参考訳(メタデータ) (2025-03-01T17:23:55Z) - Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed
Bandits [4.760079434948198]
このようなパラメトリック情報を利用する特殊なアルゴリズムは、パラメータが誤って特定された場合、不整合学習性能が高いことを示す。
主な貢献は, (i) 固定予算純探索条件下で統計的に堅牢なMABアルゴリズムの基本的な性能限界を確立すること, (ii) 二つの近似アルゴリズムのクラスを提案することである。
論文 参考訳(メタデータ) (2020-08-28T13:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。