論文の概要: Linear Partial Monitoring for Sequential Decision-Making: Algorithms,
Regret Bounds and Applications
- arxiv url: http://arxiv.org/abs/2302.03683v2
- Date: Mon, 13 Nov 2023 19:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 19:12:27.383014
- Title: Linear Partial Monitoring for Sequential Decision-Making: Algorithms,
Regret Bounds and Applications
- Title(参考訳): 逐次決定過程の線形部分モニタリング:アルゴリズム,レグレト境界とその応用
- Authors: Johannes Kirschner, Tor Lattimore, Andreas Krause
- Abstract要約: 部分的なモニタリングは、シーケンシャルな意思決定のための表現力のあるフレームワークである。
本稿では,部分的モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的かつカーネル化された設定に拡張する。
- 参考スコア(独自算出の注目度): 70.67112733968654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partial monitoring is an expressive framework for sequential decision-making
with an abundance of applications, including graph-structured and dueling
bandits, dynamic pricing and transductive feedback models. We survey and extend
recent results on the linear formulation of partial monitoring that naturally
generalizes the standard linear bandit setting. The main result is that a
single algorithm, information-directed sampling (IDS), is (nearly) worst-case
rate optimal in all finite-action games. We present a simple and unified
analysis of stochastic partial monitoring, and further extend the model to the
contextual and kernelized setting.
- Abstract(参考訳): 部分監視は、グラフ構造やデュエルバンド、動的価格設定、トランスダクティブフィードバックモデルなど、多数のアプリケーションを備えた、シーケンシャルな意思決定のための表現力のあるフレームワークである。
線形帯域設定を自然に一般化する部分的モニタリングの線形定式化に関する最近の結果を調査し,拡張する。
主な結果は、1つのアルゴリズム、情報指向サンプリング(ids)が(ほぼ)すべての有限作用ゲームにおいて最適な最悪のケースレートであるということである。
本稿では,確率的部分モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的およびカーネル的設定に拡張する。
関連論文リスト
- Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Causal Temporal Regime Structure Learning [49.77103348208835]
本稿では,各レシスタンスに対してDAG(Directed Acyclic Graph)を同時に学習する,新たな最適化手法(線形)を提案する。
我々は広範囲な実験を行い、その手法が様々な環境における因果発見モデルより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-11-02T17:26:49Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - On the Optimization Landscape of Dynamic Output Feedback: A Case Study
for Linear Quadratic Regulator [12.255864026960403]
動的コントローラの座標変換によってdLQRコストがどう変化するかを示し、次に与えられた可観測安定化コントローラの最適変換を導出する。
これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。
論文 参考訳(メタデータ) (2022-09-12T06:43:35Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Experiments in Extractive Summarization: Integer Linear Programming,
Term/Sentence Scoring, and Title-driven Models [1.3286165491120467]
我々は,新たなフレームワークであるNewsSummについて述べる。このフレームワークには,ILPやタイトル駆動アプローチを含む,要約のための既存および新しいアプローチが多数含まれている。
本稿では,新しいタイトル駆動型リダクションのアイデアが,教師なしアプローチと教師なしアプローチの両方において,性能の向上につながることを示す。
論文 参考訳(メタデータ) (2020-08-01T01:05:55Z) - A Short Note on Analyzing Sequence Complexity in Trajectory Prediction
Benchmarks [8.870188183999852]
データセット表現を識別可能なサブシーケンスの小さなセットの観点から決定する手法を提案する。
合成された実世界のデータセットに関する最初の概念実証は、このアプローチの生存可能性を示している。
論文 参考訳(メタデータ) (2020-03-27T11:44:11Z) - Information Directed Sampling for Linear Partial Monitoring [112.05623123909895]
線形報酬と観測構造を持つ部分的監視のための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測性条件に依存する適応的な最悪の後悔率を達成する。
結果がコンテキストおよびカーネル化設定にまで拡張され、アプリケーションの範囲が大幅に増加する。
論文 参考訳(メタデータ) (2020-02-25T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。