論文の概要: Multi-Armed Sampling Problem and the End of Exploration
- arxiv url: http://arxiv.org/abs/2507.10797v1
- Date: Mon, 14 Jul 2025 20:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.88313
- Title: Multi-Armed Sampling Problem and the End of Exploration
- Title(参考訳): マルチアーマッドサンプリング問題と探索の終了
- Authors: Mohammad Pedramfar, Siamak Ravanbakhsh,
- Abstract要約: 本稿では,マルチアームバンディットの最適化問題に対するサンプリングとして,マルチアームサンプリングの枠組みを紹介する。
本稿では,この枠組みに対する後悔の概念を具現化し,それに対応する下界を確立するアルゴリズムを提案する。
我々の研究は、エントロピー規則化強化学習のためのアルゴリズムの探索の必要性と収束性に光を当てている。
- 参考スコア(独自算出の注目度): 14.824891788575417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the framework of multi-armed sampling, as the sampling counterpart to the optimization problem of multi-arm bandits. Our primary motivation is to rigorously examine the exploration-exploitation trade-off in the context of sampling. We systematically define plausible notions of regret for this framework and establish corresponding lower bounds. We then propose a simple algorithm that achieves these optimal regret bounds. Our theoretical results demonstrate that in contrast to optimization, sampling does not require exploration. To further connect our findings with those of multi-armed bandits, we define a continuous family of problems and associated regret measures that smoothly interpolates and unifies multi-armed sampling and multi-armed bandit problems using a temperature parameter. We believe the multi-armed sampling framework, and our findings in this setting can have a foundational role in the study of sampling including recent neural samplers, akin to the role of multi-armed bandits in reinforcement learning. In particular, our work sheds light on the need for exploration and the convergence properties of algorithm for entropy-regularized reinforcement learning, fine-tuning of pretrained models and reinforcement learning with human feedback (RLHF).
- Abstract(参考訳): 本稿では,マルチアームバンディットの最適化問題に対するサンプリングとして,マルチアームサンプリングの枠組みを紹介する。
私たちの主な動機は、サンプリングの文脈において、探索・探索のトレードオフを厳格に調べることです。
我々は,この枠組みに対する後悔の概念を体系的に定義し,対応する下位境界を確立する。
次に、これらの最適後悔境界を達成するための簡単なアルゴリズムを提案する。
我々の理論的結果は、最適化とは対照的に、サンプリングは探索を必要としないことを示している。
この結果とマルチアームのバンドイットとをさらに結びつけるため、温度パラメータを用いて、マルチアームのサンプリングとマルチアームのバンドイット問題を円滑に補間・統一する一連の問題と、関連する後悔対策を定義した。
我々は、この多腕サンプリングフレームワークと、この設定における我々の発見が、強化学習における多腕バンディットの役割に類似した、最近のニューラルサンプリングを含むサンプリング研究における基礎的な役割を担っていると信じている。
特に、エントロピー規則化された強化学習、事前訓練されたモデルの微調整、人間からのフィードバックによる強化学習(RLHF)のためのアルゴリズムの探索の必要性と収束性に光を当てている。
関連論文リスト
- The Batch Complexity of Bandit Pure Exploration [10.036727981085223]
マルチアームバンディットにおける純粋な探索問題では、アルゴリズムは武器を反復的にサンプリングし、できるだけ早く停止し、武器分布に関する質問に対する正しい答えを返すべきである。
私たちは、バッチ化メソッドに興味を持ち、サンプルの振る舞いを数回だけ、観察のバッチ間で変更します。
純粋な探索タスクに対して,任意のサンプル効率アルゴリズムが使用するバッチ数に対して,インスタンス依存の低いバウンダリを与える。
論文 参考訳(メタデータ) (2025-02-03T15:03:45Z) - Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Dropout-Based Rashomon Set Exploration for Efficient Predictive
Multiplicity Estimation [15.556756363296543]
予測多重性(英: Predictive multiplicity)とは、ほぼ等しい最適性能を達成する複数の競合モデルを含む分類タスクを指す。
本稿では,Rashomon 集合のモデル探索にドロップアウト手法を利用する新しいフレームワークを提案する。
本手法は, 予測多重度推定の有効性の観点から, ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-02-01T16:25:00Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。
我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。