Fugu-MT 論文翻訳(概要): RIE-Greedy: Regularization-Induced Exploration for Contextual Bandits

論文の概要: RIE-Greedy: Regularization-Induced Exploration for Contextual Bandits

arxiv url: http://arxiv.org/abs/2603.11276v1
Date: Wed, 11 Mar 2026 20:11:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.622463
Title: RIE-Greedy: Regularization-Induced Exploration for Contextual Bandits
Title（参考訳）: RIE-Greedy: 正規化によるコンテキスト帯域探索
Authors: Tong Li, Thiago de Queiroz Casanova, Eric M. Schwartz, Victor Kostyuk, Dehan Kong, Joseph J. Williams,
Abstract要約: 複雑な報酬モデルを持つ現実世界の文脈的包帯問題は、木を補強するなど反復的に訓練されたモデルにしばしば取り組まれる。既存のアプローチは、実際に検証し実装するのが難しい洗練された仮定や難解な手順に依存しています。本研究では,本研究は,本質的な探索源として,モデルフィッティングプロセスに固有のランダム性を利用する,探索不要な(純粋な)行動選択戦略の活用について検討する。
参考スコア（独自算出の注目度）: 4.282654316889406
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-world contextual bandit problems with complex reward models are often tackled with iteratively trained models, such as boosting trees. However, it is difficult to directly apply simple and effective exploration strategies--such as Thompson Sampling or UCB--on top of those black-box estimators. Existing approaches rely on sophisticated assumptions or intractable procedures that are hard to verify and implement in practice. In this work, we explore the use of an exploration-free (pure-greedy) action selection strategy, that exploits the randomness inherent in model fitting process as an intrinsic source of exploration. More specifically, we note that the stochasticity in cross-validation based regularization process can naturally induce Thompson Sampling-like exploration. We show that this regularization-induced exploration is theoretically equivalent to Thompson Sampling in the two-armed bandit case and empirically leads to reliable exploration in large-scale business environments compared to benchmark methods such as epsilon-greedy and other state-of-the-art approaches. Overall, our work reveals how regularized estimator training itself can induce effective exploration, offering both theoretical insight and practical guidance for contextual bandit design.
Abstract（参考訳）: 複雑な報酬モデルを持つ実世界の文脈的包帯問題は、木を補強するなど反復的に訓練されたモデルにしばしば取り組まれる。しかし、トンプソンサンプリングやUTBのような単純で効果的な探査戦略を直接適用することは困難である。既存のアプローチは、実際に検証し実装するのが難しい洗練された仮定や難解な手順に依存しています。本研究では,本研究は,本質的な探索源として,モデルフィッティングプロセスに固有のランダム性を利用する,探索不要な(純粋な)行動選択戦略の活用について検討する。より具体的には、クロスバリデーションに基づく正規化プロセスの確率性は、自然にトンプソンサンプリングのような探索を誘発する。この正規化による探索は、理論的にはトンプソン・サンプリング(Thompson Smpling)と理論的に等価であり、エプシロングレーディ(Epsilon-greedy)や他の最先端手法と比較して、大規模ビジネス環境における信頼性の高い探索を経験的に導くことを示す。本研究は, 適応型推定器のトレーニング自体が, 理論的洞察と実践的指導の両面から, 効果的な探索を導出する方法を明らかにした。

関連論文リスト

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning [53.58654277639939]
文脈内探索(In-context Exploring)は、単一の連続した文脈内で仮説を生成、検証、洗練する本質的な能力である。本稿では,モデルにさらなる探索を促すLongth-Incentivized Explorationを提案する。提案手法は、ドメイン内タスクの平均4.4%改善と、ドメイン外ベンチマークの2.7%向上を実現している。
論文参考訳（メタデータ） (2026-02-12T09:24:32Z)
Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。 RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。 RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文参考訳（メタデータ） (2025-11-10T18:25:26Z)
Infrequent Exploration in Linear Bandits [39.8867004581646]
我々は,希少な探査のために設計されたシンプルで実用的なフレームワークINFEXを紹介した。 INFEXは、所定のスケジュールに従って、基本的な探索ポリシーを実行します。我々の理論的分析は、INFEXがインスタンス依存の後悔マッチング標準を証明可能な効率よく達成できることを実証している。
論文参考訳（メタデータ） (2025-10-29T22:25:43Z)
Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文参考訳（メタデータ） (2025-02-19T05:30:46Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。 RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。 RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文参考訳（メタデータ） (2024-06-15T20:54:48Z)
Latent State Marginalization as a Low-cost Approach for Improving Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文参考訳（メタデータ） (2022-10-03T15:09:12Z)
SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文参考訳（メタデータ） (2022-05-30T12:44:56Z)
GuideBoot: Guided Bootstrap for Deep Contextual Bandits [14.983677719946666]
文脈的バンディットアルゴリズムのためのガイドブートストラップ(GuideBoot)を導入する。 GuideBootは、実際のサンプルと偽のラベルでノイズの多いサンプルの両方で複数のモデルをトレーニングすることで、探索行動への明確なガイダンスを提供する。提案手法は, ランダムに選択した1つのモデルのみを利用することで, 決定をオンザフライで行うことができるため, 効率的である。
論文参考訳（メタデータ） (2021-07-18T07:53:04Z)
Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks [14.178899938667161]
文脈的包帯に対する簡便かつ効率的な不確実性尺度であるサンプル平均不確実性(SAU)を紹介する。単純さのため、SAUはエプシロン・グレディ探索の非常にスケーラブルなドロップイン代替として、深い文脈の包帯にシームレスに適用できる。
論文参考訳（メタデータ） (2021-05-10T21:45:01Z)
Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。本稿では,多目的RLに基づくフレームワークを提案する。この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文参考訳（メタデータ） (2020-04-06T02:37:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。