論文の概要: Pure Exploration with Infinite Answers
- arxiv url: http://arxiv.org/abs/2505.22473v1
- Date: Wed, 28 May 2025 15:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.691207
- Title: Pure Exploration with Infinite Answers
- Title(参考訳): 無限回答による純粋探索
- Authors: Riccardo Poiani, Martino Bernasconi, Andrea Celli,
- Abstract要約: 正解の集合が無限である可能性のある探索問題について検討する。
これらの問題に対して、インスタンス依存の低い境界を導出します。
我々は,Sticky-Sequence Track-and-Stopというフレームワークを提案し,Track-and-StopとSticky Track-and-Stopの両方を一般化する。
- 参考スコア(独自算出の注目度): 15.79182979494432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study pure exploration problems where the set of correct answers is possibly infinite, e.g., the regression of any continuous function of the means of the bandit. We derive an instance-dependent lower bound for these problems. By analyzing it, we discuss why existing methods (i.e., Sticky Track-and-Stop) for finite answer problems fail at being asymptotically optimal in this more general setting. Finally, we present a framework, Sticky-Sequence Track-and-Stop, which generalizes both Track-and-Stop and Sticky Track-and-Stop, and that enjoys asymptotic optimality. Due to its generality, our analysis also highlights special cases where existing methods enjoy optimality.
- Abstract(参考訳): 正解の集合が無限である可能性のある純粋探索問題、例えば、バンドイットの手段の任意の連続関数の回帰について検討する。
これらの問題に対して、インスタンス依存の低い境界を導出します。
これを解析することにより、このより一般的な設定において漸近的に最適である場合に、有限解問題に対する既存の方法(すなわち、スティッキー・トラック・アンド・ストップ)が失敗する理由について議論する。
最後に,Track-and-StopとSticky Track-and-Stopの両方を一般化したSticky-Sequence Track-and-Stopというフレームワークを提案する。
また,その汎用性から,既存手法が最適性を享受する特殊な事例も明らかにした。
関連論文リスト
- Non-Asymptotic Analysis of (Sticky) Track-and-Stop [15.79182979494432]
純粋な探索問題では、統計学者が順次情報を収集し、いくつかの未知の環境に関する質問に答える。
Track-and-Stopアルゴリズムはこれらの問題を解決する先駆的な手法である。
両アルゴリズムに漸近的でない保証を提供する。
論文 参考訳(メタデータ) (2025-05-28T15:26:55Z) - Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Exploratory Optimal Stopping: A Singular Control Formulation [2.7309692684728613]
強化学習の観点から,連続時間と状態空間の最適停止問題について検討する。
乱数停止時間の累積残エントロピーをペナル化することにより、問題の正規化版を導入する。
実オプション問題の特定の場合には、正規化問題に対する半明示的な解を導出する。
論文 参考訳(メタデータ) (2024-08-18T02:31:55Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。