Fugu-MT 論文翻訳(概要): Clustered Multi-Agent Linear Bandits

論文の概要: Clustered Multi-Agent Linear Bandits

arxiv url: http://arxiv.org/abs/2309.08710v2
Date: Mon, 30 Oct 2023 17:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 22:52:41.626114
Title: Clustered Multi-Agent Linear Bandits
Title（参考訳）: クラスタ化マルチエージェント線形バンディット
Authors: Hamza Cherkaoui and Merwan Barlier and Igor Colin
Abstract要約: クラスタ化多重エージェント線形バンドイットと呼ばれる,マルチエージェント線形バンドイット問題の特定の事例に対処する。本稿では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 5.893124686141782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address in this paper a particular instance of the multi-agent linear stochastic bandit problem, called clustered multi-agent linear bandits. In this setting, we propose a novel algorithm leveraging an efficient collaboration between the agents in order to accelerate the overall optimization problem. In this contribution, a network controller is responsible for estimating the underlying cluster structure of the network and optimizing the experiences sharing among agents within the same groups. We provide a theoretical analysis for both the regret minimization problem and the clustering quality. Through empirical evaluation against state-of-the-art algorithms on both synthetic and real data, we demonstrate the effectiveness of our approach: our algorithm significantly improves regret minimization while managing to recover the true underlying cluster partitioning.
Abstract（参考訳）: 本稿では,マルチエージェント線形確率バンディット問題(クラスタ型マルチエージェント線形バンディット)の具体例について述べる。そこで本研究では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。このコントリビューションでは、ネットワークコントローラがネットワークの基盤となるクラスタ構造を推定し、同一グループ内のエージェント間で共有されるエクスペリエンスを最適化する。後悔最小化問題とクラスタリング品質の両方について理論的解析を行う。合成データと実データの両方における最先端アルゴリズムに対する実証的な評価を通じて,我々の手法の有効性を実証する。

関連論文リスト

Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文参考訳（メタデータ） (2025-03-21T18:06:28Z)
Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文参考訳（メタデータ） (2025-01-29T23:55:23Z)
Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-01T16:38:29Z)
Multi-Agent Best Arm Identification in Stochastic Linear Bandits [0.7673339435080443]
固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
論文参考訳（メタデータ） (2024-11-20T20:09:44Z)
Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文参考訳（メタデータ） (2024-09-13T06:40:56Z)
Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文参考訳（メタデータ） (2024-01-31T17:20:28Z)
Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文参考訳（メタデータ） (2023-10-10T01:39:04Z)
Federated Multi-Level Optimization over Decentralized Networks [55.776919718214224]
エージェントが隣人としか通信できないネットワーク上での分散マルチレベル最適化の問題について検討する。ネットワーク化されたエージェントが1つの時間スケールで異なるレベルの最適化問題を解くことができる新しいゴシップに基づく分散マルチレベル最適化アルゴリズムを提案する。提案アルゴリズムは, ネットワークサイズと線形にスケーリングし, 各種アプリケーション上での最先端性能を示す。
論文参考訳（メタデータ） (2023-10-10T00:21:10Z)
Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [24.590517939890788]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文参考訳（メタデータ） (2023-05-30T06:35:49Z)
Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。グループDROフレームワークをQ-Diversityを提案して再構築する。インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文参考訳（メタデータ） (2023-05-20T07:02:27Z)
Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文参考訳（メタデータ） (2023-03-29T22:06:24Z)
Fairness via Adversarial Attribute Neighbourhood Robust Learning [49.93775302674591]
本稿では,分類ヘッドを損なうために,UnderlineRobust underlineAdversarial underlineAttribute underlineNeighbourhood (RAAN)損失を原則として提案する。
論文参考訳（メタデータ） (2022-10-12T23:39:28Z)
Rethinking Clustering-Based Pseudo-Labeling for Unsupervised Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文参考訳（メタデータ） (2022-09-27T19:04:36Z)
On the Convergence of Distributed Stochastic Bilevel Optimization Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文参考訳（メタデータ） (2022-06-30T05:29:52Z)
Distributionally robust risk evaluation with a causality constraint and structural information [0.0]
ニューラルネットワークによるテスト関数を近似し、Rademacherの複雑さによるサンプルの複雑さを証明する。我々のフレームワークは、分散的にロバストなポートフォリオ選択問題において、従来のものよりも優れています。
論文参考訳（メタデータ） (2022-03-20T14:48:37Z)
Federated Online Sparse Decision Making [24.856596181768364]
textttFedego Lassoは、新しいマルチクライアント・利己的なバンディットポリシー設計に依存している。提案アルゴリズムの有効性を,合成データセットと実世界のデータセットの両方で実証した。
論文参考訳（メタデータ） (2022-02-27T20:34:41Z)
On Accelerating Distributed Convex Optimizations [0.0]
本稿では,分散マルチエージェント凸最適化問題について検討する。提案アルゴリズムは, 従来の勾配偏光法よりも収束率を向上し, 線形収束することを示す。実ロジスティック回帰問題の解法として,従来の分散アルゴリズムと比較して,アルゴリズムの性能が優れていることを示す。
論文参考訳（メタデータ） (2021-08-19T13:19:54Z)
Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian Modeling [68.69431580852535]
サブグループフィードバックを取り入れた新しいGPレグレッションを導入する。我々の修正された回帰は、以前のアプローチと比べて、明らかにばらつきを減らし、したがってより正確な後続を減らした。我々は2つの異なる社会問題に対してアルゴリズムを実行する。
論文参考訳（メタデータ） (2021-07-07T03:57:22Z)
Exploiting Sample Uncertainty for Domain Adaptive Person Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文参考訳（メタデータ） (2020-12-16T04:09:04Z)
A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文参考訳（メタデータ） (2020-09-09T18:19:31Z)
Beyond Individual and Group Fairness [90.4666341812857]
本稿では,不公平な不公平な苦情に導かれる公平さの新しいデータ駆動モデルを提案する。我々のモデルは、複数のフェアネス基準をサポートし、それらの潜在的な不整合を考慮に入れている。
論文参考訳（メタデータ） (2020-08-21T14:14:44Z)
Kernel Methods for Cooperative Multi-Agent Contextual Bandits [15.609414012418043]
協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
論文参考訳（メタデータ） (2020-08-14T07:37:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。