Fugu-MT 論文翻訳(概要): Learning Fair Division from Bandit Feedback

論文の概要: Learning Fair Division from Bandit Feedback

arxiv url: http://arxiv.org/abs/2311.09068v1
Date: Wed, 15 Nov 2023 16:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 15:19:11.044585
Title: Learning Fair Division from Bandit Feedback
Title（参考訳）: バンドフィードバックによるフェアディビジョンの学習
Authors: Hakuei Yamada, Junpei Komiyama, Kenshi Abe, Atsushi Iwasaki
Abstract要約: この研究は、中央プランナーがエージェントの値やユーティリティの正確な知識なしにアイテムを逐次割り当てる、不確実性の下でのオンラインフェアディビジョンの学習に対処する。テキスト平均化を利用したラッパーアルゴリズムを導入し、着信したアイテムの型分布とエージェントの値の両方をバンドフィードバックで段階的に学習する。
参考スコア（独自算出の注目度）: 13.12913475818328
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This work addresses learning online fair division under uncertainty, where a central planner sequentially allocates items without precise knowledge of agents' values or utilities. Departing from conventional online algorithm, the planner here relies on noisy, estimated values obtained after allocating items. We introduce wrapper algorithms utilizing \textit{dual averaging}, enabling gradual learning of both the type distribution of arriving items and agents' values through bandit feedback. This approach enables the algorithms to asymptotically achieve optimal Nash social welfare in linear Fisher markets with agents having additive utilities. We establish regret bounds in Nash social welfare and empirically validate the superior performance of our proposed algorithms across synthetic and empirical datasets.
Abstract（参考訳）: 中央プランナーがエージェントの価値やユーティリティの正確な知識を必要とせず、順次アイテムを割り当てる不確実性の下でオンラインフェア分割を学ぶ。従来のオンラインアルゴリズムから外れたプランナーは、アイテムを割り当てた後に得られるノイズの多い推定値に依存している。本稿では,着信アイテムの型分布と,バンディットフィードバックによるエージェントの値の段階的学習を可能にする,\textit{dual averaging}を用いたラッパーアルゴリズムを提案する。このアプローチにより, 補助効用を有するエージェントを用いて, リニアフィッシャー市場でのnash社会福祉を漸近的に達成することができる。我々はナッシュ社会福祉における後悔の限界を確立し、人工的および経験的データセット間で提案アルゴリズムの優れた性能を実証的に検証する。

関連論文リスト

MAP Estimation with Denoisers: Convergence Rates and Guarantees [37.88502562012743]
簡単なアルゴリズムは、前の$p$の対数共共役仮定の下で近似演算子に収束することを示す。このアルゴリズムは, 滑らかな近位対象の勾配勾配として解釈できることを示す。
論文参考訳（メタデータ） (2025-07-21T08:59:33Z)
Multi-Agent Best Arm Identification in Stochastic Linear Bandits [0.7673339435080443]
固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
論文参考訳（メタデータ） (2024-11-20T20:09:44Z)
Inference for an Algorithmic Fairness-Accuracy Frontier [0.7743097066308449]
フェアネス・精度フロンティアのためのバイアス付き機械学習推定器を提案する。本研究では,その分布を導出し,フェアネス文学における重要な仮説を検証するための推論手法を提案する。提案手法は,両次元に改良を加えたフェアネス・正確性フロンティア上の代替アルゴリズムを導出することを示す。
論文参考訳（メタデータ） (2024-02-14T00:56:09Z)
Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
異種エージェントを用いた線形文脈帯域における保守的分散マルチタスク学習について述べる。正確なコンテキストは不明で、エージェントが利用できるのはコンテキスト分布のみである。提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。中央サーバを介してエージェント間での見積もりの同期共有を含む。
論文参考訳（メタデータ） (2024-01-21T18:43:55Z)
Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文参考訳（メタデータ） (2023-05-24T17:26:22Z)
Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文参考訳（メタデータ） (2023-03-29T22:06:24Z)
Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。本稿では, Pseudo Label Refinement フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-30T09:39:57Z)
Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文参考訳（メタデータ） (2022-06-01T00:44:53Z)
Conjugated Discrete Distributions for Distributional Reinforcement Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文参考訳（メタデータ） (2021-12-14T14:14:49Z)
Asymptotics of Network Embeddings Learned via Subsampling [4.23373349945751]
本研究では,ノード2vecのようなサブサンプリング手法を用いて,単一の統一フレームワークへの表現手法について検討する。これは、埋め込みベクトルが何を表現し、これらのメソッドが下流のタスクでいかにうまく機能するかを理解するための理論的基盤を提供する。特に、一般的に使用される損失関数は、Fisher整合性の欠如などの欠点を引き起こす可能性があることを観察する。
論文参考訳（メタデータ） (2021-07-06T02:54:53Z)
Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文参考訳（メタデータ） (2021-04-14T14:20:22Z)
Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文参考訳（メタデータ） (2020-11-01T17:59:19Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文参考訳（メタデータ） (2020-06-15T19:24:02Z)
A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文参考訳（メタデータ） (2020-02-25T18:53:25Z)
Weakly-Supervised Semantic Segmentation by Iterative Affinity Learning [86.45526827323954]
弱教師付きセマンティックセグメンテーションは、トレーニングのためにピクセル単位のラベル情報が提供されないため、難しい課題である。このようなペア関係を学習するための反復アルゴリズムを提案する。本稿では,提案アルゴリズムが最先端手法に対して好適に動作することを示す。
論文参考訳（メタデータ） (2020-02-19T10:32:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。