論文の概要: Decision Making in Changing Environments: Robustness, Query-Based Learning, and Differential Privacy
- arxiv url: http://arxiv.org/abs/2501.14928v1
- Date: Fri, 24 Jan 2025 21:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:51.572249
- Title: Decision Making in Changing Environments: Robustness, Query-Based Learning, and Differential Privacy
- Title(参考訳): 環境変化における意思決定--ロバストネス、クエリベース学習、微分プライバシー
- Authors: Fan Chen, Alexander Rakhlin,
- Abstract要約: 本研究では,環境が時間とともに変化する対話的意思決定の課題について考察する。
意思決定の複雑さと敵意的な設定の複雑さを提供するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.64384863882473
- License:
- Abstract: We study the problem of interactive decision making in which the underlying environment changes over time subject to given constraints. We propose a framework, which we call \textit{hybrid Decision Making with Structured Observations} (hybrid DMSO), that provides an interpolation between the stochastic and adversarial settings of decision making. Within this framework, we can analyze local differentially private (LDP) decision making, query-based learning (in particular, SQ learning), and robust and smooth decision making under the same umbrella, deriving upper and lower bounds based on variants of the Decision-Estimation Coefficient (DEC). We further establish strong connections between the DEC's behavior, the SQ dimension, local minimax complexity, learnability, and joint differential privacy. To showcase the framework's power, we provide new results for contextual bandits under the LDP constraint.
- Abstract(参考訳): 本研究では,環境が時間とともに変化する対話的意思決定の課題について考察する。
本稿では, 確率的・対角的な意思決定設定を補間するフレームワークを, 構造的観察による意思決定(Hybrid DMSO)と呼ぶ。
このフレームワークでは,DEC(Decision-Estimation Coefficient)の変種に基づいて,局所的差分決定(LDP)意思決定,クエリベースの学習(特にSQ学習),および同じ傘の下での堅牢でスムーズな意思決定を,上と下の境界を導出することができる。
さらに、DECの行動、SQ次元、局所的なミニマックスの複雑さ、学習可能性、および連立差分プライバシーの強い関係を確立する。
フレームワークのパワーを示すために,LDP制約下でのコンテキスト的バンディットに対して新しい結果を提供する。
関連論文リスト
- Hierarchical Upper Confidence Bounds for Constrained Online Learning [4.8951183832371]
階層的制約付き帯域幅(HCB)フレームワークを導入し、コンテキスト的帯域幅問題を拡張して階層的決定構造とマルチレベル制約を組み込む。
我々の理論的解析はHC-UCBのサブ線形後悔境界を確立し、すべての階層レベルでの制約満足度を高い確率で保証する。
論文 参考訳(メタデータ) (2024-10-22T17:41:14Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Sequential three-way group decision-making for double hierarchy hesitant fuzzy linguistic term set [8.081831444300489]
複雑性と不確実性を特徴とするグループ意思決定(GDM)は、様々な生活シナリオにおいて不可欠な部分である。
この問題に対処するため,グループ意思決定法(S3W-GDM)の多段階連続3方向決定法をグラニュラーコンピューティングの観点から構築した。
論文 参考訳(メタデータ) (2024-06-27T04:33:26Z) - Differentiable Distributionally Robust Optimization Layers [10.667165962654996]
パラメータ化二階円錐曖昧性集合を用いた混合整数DRO問題に対する微分可能なDRO層を開発する。
本稿では,決定の連続的な部分と離散的な部分を異なる原理で扱うことによって,新しい双対ビュー手法を提案する。
具体的には、双対ビュー手法を実装し、その勾配を推定するために重要サンプリングを利用するために、微分可能エネルギーベースサロゲートを構築した。
論文 参考訳(メタデータ) (2024-06-24T12:09:19Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - RISE: Robust Individualized Decision Learning with Sensitive Variables [1.5293427903448025]
素直なベースラインは、決定規則を学習する際の繊細な変数を無視し、重大な不確実性と偏見をもたらすことである。
本稿では、オフライントレーニング中に機密変数を組み込む決定学習フレームワークを提案するが、モデル展開中に学習された決定ルールの入力には含まない。
論文 参考訳(メタデータ) (2022-11-12T04:31:38Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。