Fugu-MT 論文翻訳(概要): Mechanism design with multi-armed bandit

論文の概要: Mechanism design with multi-armed bandit

arxiv url: http://arxiv.org/abs/2412.00345v1
Date: Sat, 30 Nov 2024 03:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.820512
Title: Mechanism design with multi-armed bandit
Title（参考訳）: マルチアームバンディットを用いた機構設計
Authors: Takayuki Osogami, Hirota Kinoshita, Segev Wasserkrug,
Abstract要約: 自動メカニズム設計の一般的なアプローチは、ソリューションが望ましい特性を持つメカニズムを提供する線形プログラム(LP)を定式化することである。我々は、効率、インセンティブ整合性、強い予算収支(SBB)、個人合理性(IR)の標準的な特性を達成するメカニズムを提供する、そのようなLPのための最適解のクラスを解析的に導出した。
参考スコア（独自算出の注目度）: 8.013444110633223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A popular approach of automated mechanism design is to formulate a linear program (LP) whose solution gives a mechanism with desired properties. We analytically derive a class of optimal solutions for such an LP that gives mechanisms achieving standard properties of efficiency, incentive compatibility, strong budget balance (SBB), and individual rationality (IR), where SBB and IR are satisfied in expectation. Notably, our solutions are represented by an exponentially smaller number of essential variables than the original variables of LP. Our solutions, however, involve a term whose exact evaluation requires solving a certain optimization problem exponentially many times as the number of players, $N$, grows. We thus evaluate this term by modeling it as the problem of estimating the mean reward of the best arm in multi-armed bandit (MAB), propose a Probably and Approximately Correct estimator, and prove its asymptotic optimality by establishing a lower bound on its sample complexity. This MAB approach reduces the number of times the optimization problem is solved from exponential to $O(N\,\log N)$. Numerical experiments show that the proposed approach finds mechanisms that are guaranteed to achieve desired properties with high probability for environments with up to 128 players, which substantially improves upon the prior work.
Abstract（参考訳）: 自動メカニズム設計の一般的なアプローチは、ソリューションが望ましい特性を持つメカニズムを提供する線形プログラム(LP)を定式化することである。我々は、効率、インセンティブ整合性、強い予算収支(SBB)および個人合理性(IR)の標準的な特性を達成するメカニズムを提供するLPの最適解のクラスを解析的に導出した。特に、我々の解は、LPの元の変数よりも指数関数的に少ない本質変数で表される。しかし、我々の解には、プレイヤー数($N$)が増加するにつれて、ある最適化問題を指数関数的に解く必要のある、正確な評価の項が含まれる。そこで我々は,マルチアームバンディット(MAB)におけるベストアームの平均報酬を推定する問題として,この用語をモデル化し,確率的および略補正推定器を提案し,サンプルの複雑さの低い境界を確立することで,その漸近的最適性を証明した。このMABアプローチは、最適化問題が指数関数的に解かれる回数を$O(N\,\log N)$に減らす。数値実験により,提案手法は,最大128人のプレイヤーの環境に高い確率で所望の特性を達成できることが保証され,従来よりも大幅に改善されていることがわかった。

関連論文リスト

Scalable Neural Incentive Design with Parameterized Mean-Field Approximation [28.20524168049273]
力学と報酬がリプシッツであるとき、有限$N$ ID の目標は、PMFG によって $mathscrO(frac1sqrtN)$ で近似されることを示す。さらに、反復平衡作用素の明示的な微分を利用して勾配を効率的に計算する、随伴平均集中設計(AMID)アルゴリズムを導入する。
論文参考訳（メタデータ） (2025-10-24T13:18:54Z)
N-output Mechanism: Estimating Statistical Information from Numerical Data under Local Differential Privacy [0.0]
ローカル微分プライバシー(LDP)は、機密データ収集において重要なプライバシー上の懸念に対処する。既存の LDP 機構は、非常に小さな (|Omega| in 2, 3$) か無限出力空間に最適化される。数値データを$N$の離散出力にマッピングする一般化されたフレームワークである textbfN-output 機構を提案する。
論文参考訳（メタデータ） (2025-10-13T08:06:59Z)
VAMO: Efficient Large-Scale Nonconvex Optimization via Adaptive Zeroth Order Variance Reduction [3.130722489512822]
VAMOは、ZOGスタイルのフレームワークの下で、FOミニバッチ勾配とZO有限差分プローブを組み合わせる。 VAMOはFO法やZO法よりも優れており、効率を向上させるためにより高速で柔軟な選択肢を提供する。
論文参考訳（メタデータ） (2025-05-20T05:31:15Z)
Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文参考訳（メタデータ） (2025-04-04T16:10:18Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文参考訳（メタデータ） (2024-04-19T06:24:22Z)
Global Optimization: A Machine Learning Approach [7.052596485478637]
Bertsimas と Ozturk (2023) は、ブラックボックスのグローバル最適化問題を解決する方法として OCTHaGOn を提案した。我々は、他のMIO表現可能なMLモデルを用いて、元の問題を近似することで、このアプローチの拡張を提供する。多くの場合において、ソリューションの実現可能性と最適性の改善を示す。
論文参考訳（メタデータ） (2023-11-03T06:33:38Z)
Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文参考訳（メタデータ） (2023-10-10T01:39:04Z)
Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文参考訳（メタデータ） (2023-08-17T08:34:58Z)
An Optimization-based Deep Equilibrium Model for Hyperspectral Image Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文参考訳（メタデータ） (2023-06-10T08:25:16Z)
Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文参考訳（メタデータ） (2023-05-23T19:57:57Z)
A Simple Evolutionary Algorithm for Multi-modal Multi-objective Optimization [0.0]
マルチモーダル・多目的最適化問題(MMOP)を解くための定常進化アルゴリズムを提案する。本報告では,1000関数評価の低計算予算を用いて,様々なテストスイートから得られた21個のMMOPの性能について報告する。
論文参考訳（メタデータ） (2022-01-18T03:31:11Z)
Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。 $nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文参考訳（メタデータ） (2021-12-01T22:55:23Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。これらの問題に対する新規で簡単な最適化法を開発した。結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文参考訳（メタデータ） (2021-09-23T17:38:24Z)
Runtime Analysis of Single- and Multi-Objective Evolutionary Algorithms for Chance Constrained Optimization Problems with Normally Distributed Random Variables [11.310502327308575]
独立して通常は分散しているコンポーネントのシナリオについて研究する。期待されるコストとその分散をトレードオフする問題を多目的に定式化する。また,本手法は,木に散らばった最小限の問題に対して最適解の集合を計算するためにも有効であることを示す。
論文参考訳（メタデータ） (2021-09-13T09:24:23Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
Grouped Variable Selection with Discrete Optimization: Computational and Statistical Perspectives [9.593208961737572]
本稿では,離散数理最適化に基づくグループ変数選択のための新しいアルゴリズムフレームワークを提案する。本手法は,スパースプログラミングを用いた高次元線形回帰法と非加法モデリングの両方を網羅する。提案手法は,関連する混合整数問題(mip)を解き,最適性が証明できるスタンドアロンの分岐・境界(bnb)フレームワークに基づいている。
論文参考訳（メタデータ） (2021-04-14T19:21:59Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)
Offline Model-Based Optimization via Normalized Maximum Likelihood Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文参考訳（メタデータ） (2021-02-16T06:04:27Z)
Uncertainty aware Search Framework for Multi-Objective Bayesian Optimization with Constraints [44.25245545568633]
高価な関数評価を用いた制約付きマルチオブジェクト(MO)ブラックボックス最適化の問題点を考察する。本稿では,制約付き多目的最適化のための不確実性認識検索フレームワークを提案する。 UeMOCは最適化回路の探索に必要なシミュレーション数を90%以上削減できることを示す。
論文参考訳（メタデータ） (2020-08-16T23:34:09Z)
Simplified Swarm Optimization for Bi-Objection Active Reliability Redundancy Allocation Problems [1.5990720051907859]
信頼性冗長性割り当て問題(RRAP)は、システム設計、開発、管理においてよく知られた問題である。本研究では, コスト制約を新たな目標として変更することにより, 両対象RRAPを定式化する。提案課題を解決するために,ペナルティ関数を備えた新しい簡易スワム最適化 (SSO) ,実効1型ソリューション構造,数値ベースの自己適応型新しい更新機構,制約付き非支配型ソリューション選択,および新しいpBest代替ポリシーを開発した。
論文参考訳（メタデータ） (2020-06-17T13:15:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。