論文の概要: Learning Fair Division from Bandit Feedback
- arxiv url: http://arxiv.org/abs/2311.09068v1
- Date: Wed, 15 Nov 2023 16:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:19:11.044585
- Title: Learning Fair Division from Bandit Feedback
- Title(参考訳): バンドフィードバックによるフェアディビジョンの学習
- Authors: Hakuei Yamada, Junpei Komiyama, Kenshi Abe, Atsushi Iwasaki
- Abstract要約: この研究は、中央プランナーがエージェントの値やユーティリティの正確な知識なしにアイテムを逐次割り当てる、不確実性の下でのオンラインフェアディビジョンの学習に対処する。
テキスト平均化を利用したラッパーアルゴリズムを導入し、着信したアイテムの型分布とエージェントの値の両方をバンドフィードバックで段階的に学習する。
- 参考スコア(独自算出の注目度): 13.12913475818328
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work addresses learning online fair division under uncertainty, where a
central planner sequentially allocates items without precise knowledge of
agents' values or utilities. Departing from conventional online algorithm, the
planner here relies on noisy, estimated values obtained after allocating items.
We introduce wrapper algorithms utilizing \textit{dual averaging}, enabling
gradual learning of both the type distribution of arriving items and agents'
values through bandit feedback. This approach enables the algorithms to
asymptotically achieve optimal Nash social welfare in linear Fisher markets
with agents having additive utilities. We establish regret bounds in Nash
social welfare and empirically validate the superior performance of our
proposed algorithms across synthetic and empirical datasets.
- Abstract(参考訳): 中央プランナーがエージェントの価値やユーティリティの正確な知識を必要とせず、順次アイテムを割り当てる不確実性の下でオンラインフェア分割を学ぶ。
従来のオンラインアルゴリズムから外れたプランナーは、アイテムを割り当てた後に得られるノイズの多い推定値に依存している。
本稿では,着信アイテムの型分布と,バンディットフィードバックによるエージェントの値の段階的学習を可能にする,\textit{dual averaging}を用いたラッパーアルゴリズムを提案する。
このアプローチにより, 補助効用を有するエージェントを用いて, リニアフィッシャー市場でのnash社会福祉を漸近的に達成することができる。
我々はナッシュ社会福祉における後悔の限界を確立し、人工的および経験的データセット間で提案アルゴリズムの優れた性能を実証的に検証する。
関連論文リスト
- Multi-Agent Best Arm Identification in Stochastic Linear Bandits [0.7673339435080443]
固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。
学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。
我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
論文 参考訳(メタデータ) (2024-11-20T20:09:44Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - Asymptotics of Network Embeddings Learned via Subsampling [4.23373349945751]
本研究では,ノード2vecのようなサブサンプリング手法を用いて,単一の統一フレームワークへの表現手法について検討する。
これは、埋め込みベクトルが何を表現し、これらのメソッドが下流のタスクでいかにうまく機能するかを理解するための理論的基盤を提供する。
特に、一般的に使用される損失関数は、Fisher整合性の欠如などの欠点を引き起こす可能性があることを観察する。
論文 参考訳(メタデータ) (2021-07-06T02:54:53Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Weakly-Supervised Semantic Segmentation by Iterative Affinity Learning [86.45526827323954]
弱教師付きセマンティックセグメンテーションは、トレーニングのためにピクセル単位のラベル情報が提供されないため、難しい課題である。
このようなペア関係を学習するための反復アルゴリズムを提案する。
本稿では,提案アルゴリズムが最先端手法に対して好適に動作することを示す。
論文 参考訳(メタデータ) (2020-02-19T10:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。