論文の概要: Offline Contextual Bandits in the Presence of New Actions
- arxiv url: http://arxiv.org/abs/2605.18509v1
- Date: Mon, 18 May 2026 15:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.891298
- Title: Offline Contextual Bandits in the Presence of New Actions
- Title(参考訳): 新しい行動の有無におけるオフラインの文脈帯域
- Authors: Ren Kishimoto, Tatsuhiro Shimizu, Kazuki Kawamura, Takanori Muroi, Yusuke Narita, Yuki Sasamoto, Kei Tateno, Takuma Udagawa, Yuta Saito,
- Abstract要約: Off-policy contextual bandits (OPL) はレコメンデーションシステムや検索エンジンで使用される。
OPLは、既存のアクションセットから期待される報酬を最大化するアクションを選択する。
本稿では,アクション機能を活用した新しいOPL手法を提案する。
我々は,PONAが政策全体の性能を維持しつつ,効率的に新たな行動を選択することを示す。
- 参考スコア(独自算出の注目度): 17.359266075849195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated decision-making algorithms drive applications such as recommendation systems and search engines. These algorithms often rely on off-policy contextual bandits or off-policy learning (OPL). Conventionally, OPL selects actions that maximize the expected reward from an existing action set. However, in many real-world scenarios, actions, such as news articles or video content, change continuously, and the action space evolves over time after data collection. We define actions introduced after deploying the logging policy as new actions and focus on OPL with new actions. Existing OPL methods identify optimal actions from the existing set effectively but cannot learn and select new actions because no relevant data are logged. To address this limitation, we propose a new OPL method that leverages action features. We first introduce the Local Combination PseudoInverse (LCPI) estimator for the policy gradient, generalizing the PseudoInverse estimator initially proposed for off-policy evaluation of slate bandits. LCPI controls the trade-off between reward-modeling condition and the condition for data collection regarding the action features, capturing the interaction effects among different dimensions of action features. Furthermore, we propose a generalized algorithm called Policy Optimization for Effective New Actions (PONA), which integrates LCPI, a component specialized for new action selection, with Doubly Robust (DR), which excels at learning within existing actions. We define PONA as a weighted sum of the LCPI and DR estimators, optimizing both the selection of existing and new actions, and allowing the proportion of new action selections to be adjusted by the weight parameter. Through extensive experiments, we demonstrate that PONA efficiently selects new actions while maintaining the overall policy performance as opposed to most existing methods that cannot select new actions.
- Abstract(参考訳): 自動意思決定アルゴリズムはレコメンデーションシステムや検索エンジンなどのアプリケーションを駆動する。
これらのアルゴリズムは、しばしば政治外の文脈的盗賊や政治外の学習(OPL)に依存している。
従来、OPLは既存のアクションセットから期待される報酬を最大化するアクションを選択する。
しかし、多くの現実のシナリオでは、ニュース記事やビデオコンテンツのようなアクションは継続的に変化し、アクション空間はデータ収集後に時間とともに進化する。
我々はロギングポリシーをデプロイした後に導入されたアクションを新しいアクションとして定義し、新しいアクションでOPLに集中する。
既存のOPLメソッドは、既存のセットから最適なアクションを効果的に識別するが、関連するデータがログされていないため、新しいアクションを学習し、選択することはできない。
この制限に対処するために,アクション機能を利用する新しいOPL法を提案する。
まず, 政策勾配の局所的組合せ Pseudo Inverse (LCPI) 推定器を導入し, 当初提案されたスレート包帯の非政治的評価のための Pseudo Inverse 推定器を一般化した。
LCPIは、報酬モデリング条件と、アクション特徴に関するデータ収集条件とのトレードオフを制御し、アクション特徴の異なる次元間の相互作用効果をキャプチャする。
さらに、新しいアクション選択に特化したLCPIと、既存のアクション内での学習を最適化するDouubly Robust(DR)を統合した、Poly Policy Optimization for Effective New Actions(PONA)と呼ばれる一般化アルゴリズムを提案する。
我々は、LCPIとDR推定器の重み付け和としてPONAを定義し、既存のアクションの選択と新しいアクションの選択の両方を最適化し、新しいアクション選択の比率を重みパラメータによって調整できるようにする。
広範な実験を通じて、PONAは、新しいアクションを選択できない既存の方法とは対照的に、全体的なポリシー性能を維持しながら、効率的に新しいアクションを選択することを実証する。
関連論文リスト
- OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents [74.20327254615854]
大規模言語モデルエージェントは、シーケンシャルな意思決定タスクを解決するために、推論、行動選択、観察をインターリーブする。
LLMエージェントの既存の推論時間適応法は、主にプロンプトや検索に依存している。
提案するOLIVIAは,ReAct型エージェントのための推論時行動適応フレームワークである。
論文 参考訳(メタデータ) (2026-05-11T19:28:20Z) - Imitate Optimal Policy: Prevail and Induce Action Collapse in Policy Gradient [61.440209025381016]
ポリシー強化学習は、ディープニューラルネットワーク(DNN)を使用して、アクション選択層における可能性を計算するために使用される特徴表現の共有バックボーンを学習する。
特定の制約下では、我々はAction Collapse (AC)と呼ばれる神経崩壊に似た構造が出現する。
本稿では,動作選択層として合成ETFを付加した行動崩壊ポリシー勾配(ACPG)法を提案する。
論文 参考訳(メタデータ) (2025-09-02T18:33:11Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Learning Action Embeddings for Off-Policy Evaluation [6.385697591955264]
オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
しかし、アクションの数が多ければ、あるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims は、代わりにアクション埋め込み(英語版)を用いて、大きなアクション空間における IPS のばらつきを減らし、マーシャライズされた IPS (MIPS) を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:44:30Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。