論文の概要: Online Social Welfare Function-based Resource Allocation
- arxiv url: http://arxiv.org/abs/2602.01400v1
- Date: Sun, 01 Feb 2026 19:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.768919
- Title: Online Social Welfare Function-based Resource Allocation
- Title(参考訳): オンライン社会福祉機能に基づく資源配分
- Authors: Kanad Pardeshi, Samsara Foubert, Aarti Singh,
- Abstract要約: 本稿では,SWFに基づくオンライン学習と推論のための一般的な信頼性シーケンスフレームワークを提案する。
ほぼ最適な$tildeO(n+sqrtnkT)に対して,SWFに依存しないオンライン学習アルゴリズムであるSWF-UCBを提案する。
このフレームワークは、シーケンシャル仮説テスト、最適停止、ポリシー評価などの推論応用を自然にサポートする。
- 参考スコア(独自算出の注目度): 9.596626009413635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world settings, a centralized decision-maker must repeatedly allocate finite resources to a population over multiple time steps. Individuals who receive a resource derive some stochastic utility; to characterize the population-level effects of an allocation, the expected individual utilities are then aggregated using a social welfare function (SWF). We formalize this setting and present a general confidence sequence framework for SWF-based online learning and inference, valid for any monotonic, concave, and Lipschitz-continuous SWF. Our key insight is that monotonicity alone suffices to lift confidence sequences from individual utilities to anytime-valid bounds on optimal welfare. Building on this foundation, we propose SWF-UCB, a SWF-agnostic online learning algorithm that achieves near-optimal $\tilde{O}(n+\sqrt{nkT})$ regret (for $k$ resources distributed among $n$ individuals at each of $T$ time steps). We instantiate our framework on three normatively distinct SWF families: Weighted Power Mean, Kolm, and Gini, providing bespoke oracle algorithms for each. Experiments confirm $\sqrt{T}$ scaling and reveal rich interactions between $k$ and SWF parameters. This framework naturally supports inference applications such as sequential hypothesis testing, optimal stopping, and policy evaluation.
- Abstract(参考訳): 多くの実世界の環境では、中央集権的な意思決定者は、複数の時間ステップで人口に有限な資源を割り当てなければならない。
資源を受け取った個人は確率的効力を持ち、割り当てによる人口レベルの効果を特徴付けるために、期待される個々のユーティリティは社会福祉機能(SWF)を使用して集約される。
我々は、この設定を形式化し、SWFに基づくオンライン学習と推論のための一般的な信頼性シーケンスフレームワークを示し、任意のモノトニック、凹凸、リプシッツ連続SWFに有効である。
私たちの重要な洞察は、単調性だけで個々のユーティリティから最適な福祉に関する任意の有能な境界への信頼シーケンスを持ち上げるのに十分であるということです。
この基盤の上に構築されたSWF-UCBは、ほぼ最適の$\tilde{O}(n+\sqrt{nkT})を達成できるSWF非依存のオンライン学習アルゴリズムである。
我々は、標準的に異なる3つのSWFファミリー(Weighted Power Mean、Kolm、Gini)のフレームワークをインスタンス化し、それぞれに好ましくないオラクルアルゴリズムを提供します。
実験では$\sqrt{T}$のスケーリングを確認し、$k$とSWFパラメータ間のリッチな相互作用を明らかにする。
このフレームワークは、シーケンシャル仮説テスト、最適停止、ポリシー評価などの推論応用を自然にサポートする。
関連論文リスト
- Multiple-play Stochastic Bandits with Prioritized Arm Capacity Sharing [52.124267908936396]
このモデルは、$M$armと$K$playで構成されている。
各アームには複数の能力があり、各ユニットの能力は報酬関数に関連付けられている。
複数のプレーがアームキャパシティを競う場合、アームキャパシティは第1の優先重みで割り当てられる。
論文 参考訳(メタデータ) (2025-12-25T11:19:09Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Prediction-Augmented Mechanism Design for Weighted Facility Location [1.6552489352816389]
非一様重みを持つ戦略エージェントに対して、一貫性と堅牢性のバランスをとるための拡張アルゴリズムフレームワークを提供する。
重み付き FLP における$Oleft(n cdot fracW_maxW_min right)$Oleft(n cdot fracW_maxW_min right)$-robustness in weighted FLP, with fully predictions of all agent。
論文 参考訳(メタデータ) (2025-07-09T03:13:52Z) - Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization [15.329281344012117]
REINFORCE++は、textbfGlobal Advantage Normalizationを中心にした、批判のないフレームワークである。
本稿では、汎用ドメインRLHFのアルゴリズムであるREINFORCE++と、複雑な推論タスクのための堅牢なグループサンプリングのREINFORCE++/wベースラインの2つのバリエーションを紹介する。
論文 参考訳(メタデータ) (2025-01-04T02:08:06Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated
Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。
半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-12-03T03:27:51Z) - On the Convergence of Heterogeneous Federated Learning with Arbitrary
Adaptive Online Model Pruning [15.300983585090794]
任意適応型オンラインモデルプルーニングを用いた異種FLアルゴリズムの一元化フレームワークを提案する。
特に、ある十分な条件下では、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束する。
コンバージェンスに影響を与える2つの要因として,プルーニング誘導雑音と最小カバレッジ指数を照らす。
論文 参考訳(メタデータ) (2022-01-27T20:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。