論文の概要: Decision-Dependent Stochastic Optimization: The Role of Distribution Dynamics
- arxiv url: http://arxiv.org/abs/2503.07324v1
- Date: Mon, 10 Mar 2025 13:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:01.809531
- Title: Decision-Dependent Stochastic Optimization: The Role of Distribution Dynamics
- Title(参考訳): 決定依存確率最適化:分布ダイナミクスの役割
- Authors: Zhiyu He, Saverio Bolognani, Florian Dörfler, Michael Muehlebach,
- Abstract要約: 動的分布の適応と形成を両立させることで最適な意思決定を実現するオンラインアルゴリズムを開発した。
提案手法の最適性および一般化性能について,本手法が分散力学のキャラクタリゼーションをいかに促進するかを実証する。
- 参考スコア(独自算出の注目度): 7.737213476933511
- License:
- Abstract: Distribution shifts have long been regarded as troublesome external forces that a decision-maker should either counteract or conform to. An intriguing feedback phenomenon termed decision dependence arises when the deployed decision affects the environment and alters the data-generating distribution. In the realm of performative prediction, this is encoded by distribution maps parameterized by decisions due to strategic behaviors. In contrast, we formalize an endogenous distribution shift as a feedback process featuring nonlinear dynamics that couple the evolving distribution with the decision. Stochastic optimization in this dynamic regime provides a fertile ground to examine the various roles played by dynamics in the composite problem structure. To this end, we develop an online algorithm that achieves optimal decision-making by both adapting to and shaping the dynamic distribution. Throughout the paper, we adopt a distributional perspective and demonstrate how this view facilitates characterizations of distribution dynamics and the optimality and generalization performance of the proposed algorithm. We showcase the theoretical results in an opinion dynamics context, where an opportunistic party maximizes the affinity of a dynamic polarized population, and in a recommender system scenario, featuring performance optimization with discrete distributions in the probability simplex.
- Abstract(参考訳): 流通のシフトは、意思決定者が対処するか従わなければならない、厄介な外部の力と見なされてきた。
興味深いフィードバック現象は、デプロイされた決定が環境に影響し、データ生成の分布を変更すると、決定依存と呼ばれる。
性能予測の領域では、これは戦略行動による決定によってパラメータ化された分布マップによって符号化される。
対照的に、進化する分布と決定を結びつける非線形ダイナミクスを特徴とするフィードバックプロセスとして、内在的な分布シフトを定式化する。
この力学系における確率的最適化は、複合問題構造における力学が果たす様々な役割を調べるための肥大な土台を提供する。
そこで本研究では,動的分布の適応と形成を両立させることにより,最適意思決定を実現するオンラインアルゴリズムを開発した。
そこで本論文では,分散的視点を取り入れ,この視点が分布力学のキャラクタリゼーションと,提案アルゴリズムの最適性と一般化性能をいかに促進するかを示す。
本稿では, 動的偏極化集団の親和性を最大化する機会主義的党派と, 確率単純度における離散分布による性能最適化を特徴とする推薦システムシナリオにおいて, 理論結果を意見ダイナミクスの文脈で示す。
関連論文リスト
- Out-of-Distribution Generalized Dynamic Graph Neural Network with
Disentangled Intervention and Invariance Promotion [61.751257172868186]
動的グラフニューラルネットワーク(DyGNN)は、グラフと時間力学を利用して強力な予測能力を実証している。
既存のDyGNNは、動的グラフに自然に存在する分散シフトを処理できない。
論文 参考訳(メタデータ) (2023-11-24T02:42:42Z) - On the Foundation of Distributionally Robust Reinforcement Learning [19.621038847810198]
我々は、分布的堅牢性強化学習(DRRL)の理論的基礎に貢献する。
この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。
このDRMDPフレームワーク内では、動的プログラミング原理(DPP)の存在の有無を調査する。
論文 参考訳(メタデータ) (2023-11-15T15:02:23Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Strategic Distribution Shift of Interacting Agents via Coupled Gradient
Flows [6.064702468344376]
実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。
より単純なモデルでは捉えられない偏極や異なる影響といった、よく文書化された形態の分布シフトを捉える手法を示す。
論文 参考訳(メタデータ) (2023-07-03T17:18:50Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Fair Incentives for Repeated Engagement [0.46040036610482665]
我々は、参加決定が受け取ったインセンティブに依存するエージェントに直面する場合、維持のための最適な金融インセンティブスキームを見つけるという課題について検討する。
明示的な差別がなくても、システムの種類構成を変化させることで、ポリシーが無意識に異なるタイプのエージェントを識別できることが示される。
論文 参考訳(メタデータ) (2021-10-28T04:13:53Z) - Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。
本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。
本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文 参考訳(メタデータ) (2021-07-29T17:42:12Z) - Goal-oriented adaptive sampling under random field modelling of response
probability distributions [0.6445605125467573]
応答分布の空間的変動がそれらの平均および/または分散だけでなく、例えば、形状や一様性、多様性などを含む他の特徴も考慮する。
我々の貢献は、それによって引き起こされる確率分布の場をモデル化する非パラメトリックベイズアプローチに基づいている。
論文 参考訳(メタデータ) (2021-02-15T15:55:23Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。