論文の概要: Online Stackelberg Optimization via Nonlinear Control
- arxiv url: http://arxiv.org/abs/2406.18805v1
- Date: Thu, 27 Jun 2024 00:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:47:01.234706
- Title: Online Stackelberg Optimization via Nonlinear Control
- Title(参考訳): 非線形制御によるオンラインスタックルバーグ最適化
- Authors: William Brown, Christos Papadimitriou, Tim Roughgarden,
- Abstract要約: 適応エージェントとの繰り返しの相互作用問題では、エージェント応答の空間を予測し、最適化する必要があることが多い。
この形態の多くの問題は、テキスト局所制御性を満たすオンライン(非線形)制御のインスタンスとして、境界状態空間上で凸損失を伴ってキャスト可能であることを示す。
このような場合において、トラクタブルな後悔の最小化のための統一的なアルゴリズムフレームワークを導入する。
- 参考スコア(独自算出の注目度): 11.220642401065495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In repeated interaction problems with adaptive agents, our objective often requires anticipating and optimizing over the space of possible agent responses. We show that many problems of this form can be cast as instances of online (nonlinear) control which satisfy \textit{local controllability}, with convex losses over a bounded state space which encodes agent behavior, and we introduce a unified algorithmic framework for tractable regret minimization in such cases. When the instance dynamics are known but otherwise arbitrary, we obtain oracle-efficient $O(\sqrt{T})$ regret by reduction to online convex optimization, which can be made computationally efficient if dynamics are locally \textit{action-linear}. In the presence of adversarial disturbances to the state, we give tight bounds in terms of either the cumulative or per-round disturbance magnitude (for \textit{strongly} or \textit{weakly} locally controllable dynamics, respectively). Additionally, we give sublinear regret results for the cases of unknown locally action-linear dynamics as well as for the bandit feedback setting. Finally, we demonstrate applications of our framework to well-studied problems including performative prediction, recommendations for adaptive agents, adaptive pricing of real-valued goods, and repeated gameplay against no-regret learners, directly yielding extensions beyond prior results in each case.
- Abstract(参考訳): 適応エージェントとの繰り返しの相互作用問題では、エージェント応答の空間を予測し、最適化する必要があることが多い。
エージェントの動作を符号化する有界な状態空間に対して凸ロスを伴い,オンライン(非線形)制御を満足する事例として,この形式の多くの問題を列挙できることを示す。
インスタンスダイナミクスが知られているが、そうでなければ任意の場合、オンライン凸最適化への還元によるオラクル効率$O(\sqrt{T})$後悔が得られる。
状態に対する敵対的外乱の存在下では、累積的または円周的外乱の程度(それぞれ \textit{strongly} と \textit{weakly} のどちらかの局所的に制御可能な力学について)で厳密な境界を与える。
さらに,局所的な行動-線形力学の未知の症例に対するサブ線形後悔結果と,帯域フィードバック設定について述べる。
最後に,性能予測,適応エージェントの推薦,実価値商品の適応価格設定,非学習者に対する繰り返しのゲームプレイなど,よく研究された問題へのフレームワークの適用について述べる。
関連論文リスト
- Adaptive Decision-Making with Constraints and Dependent Losses:
Performance Guarantees and Applications to Online and Nonlinear
Identification [5.787117733071415]
エージェントが有限の選択肢の中から繰り返し選択することで累積性能目標を最適化する適応的意思決定問題を考える。
我々のアルゴリズムと分析はインスタンス依存であり、つまり、環境の最適以下の選択は、我々の後悔の限界に利用され、反映される。
得られたアルゴリズムの性能は2つの数値例で強調される。
論文 参考訳(メタデータ) (2023-04-06T18:32:26Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - On the Stability Properties and the Optimization Landscape of Training
Problems with Squared Loss for Neural Networks and General Nonlinear Conic
Approximation Schemes [0.0]
ニューラルネットワークと一般的な非線形円錐近似スキームの2乗損失を伴うトレーニング問題の最適化景観と安定性特性について検討する。
これらの不安定性に寄与する同じ効果が、サドル点や急激な局所ミニマの出現の原因でもあることを証明している。
論文 参考訳(メタデータ) (2020-11-06T11:34:59Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z) - Adaptive Regret for Control of Time-Varying Dynamics [31.319502238224334]
制御の分野に適応的後悔の尺度を導入する。
私たちの主な貢献は、新しい効率的なメタアルゴリズムです。
主要な技術的革新は、メモリを伴うオンライン凸最適化のより一般的なフレームワークに対する最初の適応的後悔のバウンドである。
論文 参考訳(メタデータ) (2020-07-08T19:40:34Z) - Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。
パフォーマンス指標として動的後悔を選択します。
本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T14:10:57Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。