論文の概要: Infrequent Exploration in Linear Bandits
- arxiv url: http://arxiv.org/abs/2510.26000v1
- Date: Wed, 29 Oct 2025 22:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.590337
- Title: Infrequent Exploration in Linear Bandits
- Title(参考訳): 線形帯域における頻繁な探索
- Authors: Harin Lee, Min-hwan Oh,
- Abstract要約: 我々は,希少な探査のために設計されたシンプルで実用的なフレームワークINFEXを紹介した。
INFEXは、所定のスケジュールに従って、基本的な探索ポリシーを実行します。
我々の理論的分析は、INFEXがインスタンス依存の後悔マッチング標準を証明可能な効率よく達成できることを実証している。
- 参考スコア(独自算出の注目度): 39.8867004581646
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the problem of infrequent exploration in linear bandits, addressing a significant yet overlooked gap between fully adaptive exploratory methods (e.g., UCB and Thompson Sampling), which explore potentially at every time step, and purely greedy approaches, which require stringent diversity assumptions to succeed. Continuous exploration can be impractical or unethical in safety-critical or costly domains, while purely greedy strategies typically fail without adequate contextual diversity. To bridge these extremes, we introduce a simple and practical framework, INFEX, explicitly designed for infrequent exploration. INFEX executes a base exploratory policy according to a given schedule while predominantly choosing greedy actions in between. Despite its simplicity, our theoretical analysis demonstrates that INFEX achieves instance-dependent regret matching standard provably efficient algorithms, provided the exploration frequency exceeds a logarithmic threshold. Additionally, INFEX is a general, modular framework that allows seamless integration of any fully adaptive exploration method, enabling wide applicability and ease of adoption. By restricting intensive exploratory computations to infrequent intervals, our approach can also enhance computational efficiency. Empirical evaluations confirm our theoretical findings, showing state-of-the-art regret performance and runtime improvements over existing methods.
- Abstract(参考訳): 線形バンディットにおける頻繁な探索の問題について検討し、全適応探索法(例えば UCB や Thompson Sampling など)と、厳密な多様性の仮定を必要とする純粋に欲求的なアプローチの相違に対処する。
継続的探索は、安全クリティカルな領域やコストの高い領域では非現実的または非倫理的であり得るが、純粋に欲求的な戦略は通常、適切な文脈の多様性なしに失敗する。
これらの極端を橋渡しするために、我々は、頻繁な探索のために明示的に設計されたシンプルで実践的なフレームワークINFEXを導入しました。
INFEXは、所定のスケジュールに従って、基本的な探索ポリシーを実行します。
その単純さにもかかわらず、我々の理論的解析は、探索周波数が対数しきい値を超えた場合、INFEXがインスタンス依存の後悔マッチング標準を証明可能なアルゴリズムで達成することを示した。
さらにINFEXは、完全な適応探索手法をシームレスに統合し、幅広い適用性と導入の容易さを実現する、汎用的なモジュール化されたフレームワークである。
集中探索計算を頻繁な間隔に制限することにより,計算効率を向上させることができる。
実験による評価により, 既存の手法と比較して, 現状の残念な性能と実行時の改善が示された。
関連論文リスト
- Differentiable Constraint-Based Causal Discovery [18.720260801912346]
観測データからの因果発見は人工知能の基本的な課題である。
既存の手法は、制約ベースのアプローチやスコアベースのアプローチに広く分類することができる。
本研究は,ソフトロジックを用いたパーコレーション理論により得られる,微分可能な$d$セパレーションスコアの開発について検討する。
論文 参考訳(メタデータ) (2025-10-24T21:28:39Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Provably Efficient Exploration in Inverse Constrained Reinforcement Learning [12.178081346315523]
逆制約強化学習(Inverse Constrained Reinforcement Learning)は、複雑な環境で実現可能な制約を回復するための一般的な解法である。
本稿では,このギャップを埋めるため,効率的なサンプリングを行うための戦略的探索フレームワークを提案する。
効率的な制約推論を実現するための探索アルゴリズムを2つ導入する。
論文 参考訳(メタデータ) (2024-09-24T10:48:13Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。