論文の概要: Federated Linear Dueling Bandits
- arxiv url: http://arxiv.org/abs/2502.01085v1
- Date: Mon, 03 Feb 2025 05:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:02.450748
- Title: Federated Linear Dueling Bandits
- Title(参考訳): Federated Linear Durling Bandits
- Authors: Xuhan Huang, Yan Hu, Zhiyan Li, Zhiyong Wang, Benyou Wang, Zhongxiang Dai,
- Abstract要約: 近年、リコメンデータシステムや大規模言語モデルといった重要な分野に広く応用されているため、コンテキスト線形デュエルバンドイットが注目されている。
従来の研究は、協調を達成するために、バンドイットパラメータのクローズドフォーム更新に依存する、連合線形バンドイットアルゴリズムを開発した。
本研究では, 線形関数パラメータを推定するために損失関数を最小化するために) とフェデレート学習(フェデレーション学習) を組み合わせることで, この課題を克服する。
- 参考スコア(独自算出の注目度): 28.74660004468591
- License:
- Abstract: Contextual linear dueling bandits have recently garnered significant attention due to their widespread applications in important domains such as recommender systems and large language models. Classical dueling bandit algorithms are typically only applicable to a single agent. However, many applications of dueling bandits involve multiple agents who wish to collaborate for improved performance yet are unwilling to share their data. This motivates us to draw inspirations from federated learning, which involves multiple agents aiming to collaboratively train their neural networks via gradient descent (GD) without sharing their raw data. Previous works have developed federated linear bandit algorithms which rely on closed-form updates of the bandit parameters (e.g., the linear function parameter) to achieve collaboration. However, in linear dueling bandits, the linear function parameter lacks a closed-form expression and its estimation requires minimizing a loss function. This renders these previous methods inapplicable. In this work, we overcome this challenge through an innovative and principled combination of online gradient descent (for minimizing the loss function to estimate the linear function parameters) and federated learning, hence introducing the first federated linear dueling bandit algorithms. Through rigorous theoretical analysis, we prove that our algorithms enjoy a sub-linear upper bound on its cumulative regret. We also use empirical experiments to demonstrate the effectiveness of our algorithms and the practical benefit of collaboration.
- Abstract(参考訳): 近年、リコメンデータシステムや大規模言語モデルといった重要な分野に広く応用されているため、コンテキスト線形デュエルバンドイットが注目されている。
古典的なデュエルバンディットアルゴリズムは一般に単一のエージェントにのみ適用される。
しかし、デュエルバンディットの多くの応用には、パフォーマンス向上のためにコラボレーションを希望する複数のエージェントが関係しており、データの共有は望まない。
複数のエージェントが、生データを共有せずに、勾配降下(GD)を介してニューラルネットワークを協調的にトレーニングすることを目的としています。
従来の研究は、協調を実現するために、帯域パラメータ(例えば線形関数パラメータ)の閉形式更新に依存する有界線形帯域幅アルゴリズムを開発した。
しかし、線形デュエル帯域では、線形関数パラメータは閉形式表現に欠けており、その推定には損失関数の最小化が必要である。
これにより、これらの前のメソッドは適用できない。
本研究では, 線形関数パラメータを推定するために損失関数を最小化するために) とフェデレート学習(フェデレーション学習) を組み合わせることで, この課題を克服する。
厳密な理論的解析を通じて、我々のアルゴリズムはその累積的後悔のサブ線形上界を楽しむことを証明した。
また,アルゴリズムの有効性と協調の実践的メリットを示す実証実験も実施している。
関連論文リスト
- Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Last Switch Dependent Bandits with Monotone Payoff Functions [8.860629791560198]
我々は、LSDバンディット計画の近似性、すなわち、最適なアーム推進戦略を演算する(NP-hard)問題を理解するための一歩を踏み出した。
特に、この問題に対する最初の効率的な定数近似アルゴリズムを設計し、自然単調性仮定の下では、その近似が最先端にほぼ一致することを示す。
われわれは,新しい高次元緩和法や仮想状態の進化を反映する技術など,このような問題に対する新たなツールと洞察を開発する。
論文 参考訳(メタデータ) (2023-06-01T04:38:32Z) - Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。
疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。
後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文 参考訳(メタデータ) (2023-05-30T16:05:44Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Scaling the Convex Barrier with Sparse Dual Algorithms [141.4085318878354]
本稿では,ニューラルネットワークバウンダリングのための2つの新しい2重アルゴリズムを提案する。
どちらの方法も新しい緩和の強さを回復する: 厳密さと線形分離オラクル。
実行時間のほんの一部で、既製のソルバよりも優れた境界を得ることができます。
論文 参考訳(メタデータ) (2021-01-14T19:45:17Z) - Lagrangian Decomposition for Neural Network Verification [148.0448557991349]
ニューラルネットワーク検証の基本的なコンポーネントは、出力が取ることのできる値のバウンダリの計算である。
ラグランジアン分解に基づく新しい手法を提案する。
ランニングタイムのごく一部で、既成の解法に匹敵するバウンダリが得られることを示す。
論文 参考訳(メタデータ) (2020-02-24T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。