論文の概要: Online Decision Making with Generative Action Sets
- arxiv url: http://arxiv.org/abs/2509.25777v1
- Date: Tue, 30 Sep 2025 04:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.432443
- Title: Online Decision Making with Generative Action Sets
- Title(参考訳): 生成アクションセットによるオンライン意思決定
- Authors: Jianyu Xu, Vidhi Jain, Bryan Wilder, Aarti Singh,
- Abstract要約: 本研究では,エージェントが任意のステップで新たなアクションを生成できるオンライン学習問題について検討する。
本稿では,行動選択に下位信頼境界,行動生成に上位信頼境界を用いる2倍最適化アルゴリズムを提案する。
我々は,このアルゴリズムが$O(Tfracdd+2dfracdd+2 + dsqrtTlog T)$の最適後悔を実現することを証明し,オンライン学習における行動空間の拡張による最初のサブ線形後悔を提供する。
- 参考スコア(独自算出の注目度): 25.617753965520944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advances in generative AI, decision-making agents can now dynamically create new actions during online learning, but action generation typically incurs costs that must be balanced against potential benefits. We study an online learning problem where an agent can generate new actions at any time step by paying a one-time cost, with these actions becoming permanently available for future use. The challenge lies in learning the optimal sequence of two-fold decisions: which action to take and when to generate new ones, further complicated by the triangular tradeoffs among exploitation, exploration and $\textit{creation}$. To solve this problem, we propose a doubly-optimistic algorithm that employs Lower Confidence Bounds (LCB) for action selection and Upper Confidence Bounds (UCB) for action generation. Empirical evaluation on healthcare question-answering datasets demonstrates that our approach achieves favorable generation-quality tradeoffs compared to baseline strategies. From theoretical perspectives, we prove that our algorithm achieves the optimal regret of $O(T^{\frac{d}{d+2}}d^{\frac{d}{d+2}} + d\sqrt{T\log T})$, providing the first sublinear regret bound for online learning with expanding action spaces.
- Abstract(参考訳): 生成AIの進歩により、意思決定エージェントはオンライン学習中に動的に新しいアクションを作成できるようになった。
本研究では,エージェントが1回限りの費用を支払うことで,任意のステップで新たなアクションを生成できるオンライン学習問題について検討する。
課題は、どのアクションを取るか、いつ新しいものを生成するか、という2つの決定の最適な順序を学ぶことだ。
そこで本研究では,行動選択に低信頼境界(LCB),行動生成に高信頼境界(UCB)を用いる二重最適化アルゴリズムを提案する。
医療質問回答データセットの実証的評価は,本手法が基本戦略と比較して良好な世代品質のトレードオフを達成できることを実証している。
理論的見地から、我々のアルゴリズムは$O(T^{\frac{d}{d+2}}d^{\frac{d}{d+2}} + d\sqrt{T\log T})$の最適後悔を達成し、アクション空間の拡大を伴うオンライン学習のための最初のサブ線形後悔を与える。
関連論文リスト
- Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。
この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。
我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文 参考訳(メタデータ) (2025-06-10T04:25:04Z) - Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
我々は,個別かつ不可逆な意思決定を対象とするオンライン学習と最適化の問題を定義した。
各期間において、意思決定者は、オープンする施設を選択し、それぞれの成功に関する情報を受け取り、将来の決定を導くために分類モデルを更新する。
目的は,多数の施設を対象とする地平線を特徴とし,カバー対象を反映するチャンス制約の下で施設開口を最小化することである。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Learning-augmented Online Algorithm for Two-level Ski-rental Problem [8.381344684943212]
本研究では,3つの支払いオプションのうちの1つを選択することで,複数の項目に対する要求の順序を満たす必要がある2段階のスキーレンタル問題について検討する。
我々は、機械学習予測を頑健なオンラインアルゴリズムに組み込むことにより、学習増強アルゴリズム(LADTSR)を開発した。
論文 参考訳(メタデータ) (2024-02-09T16:10:54Z) - Online Conversion with Switching Costs: Robust and Learning-Augmented Algorithms [11.029788598491077]
エネルギーとサステナビリティの交差点で発生した問題を捉えるオンライン問題の一群である,スイッチングコストによるオンライン変換について検討する。
本稿では,この問題の決定論的および決定論的変異に対して,競合的(ロバストな)しきい値に基づくアルゴリズムを導入する。
そこで我々は,ブラックボックスのアドバイスを活かした学習強化アルゴリズムを提案し,平均ケース性能を著しく向上させた。
論文 参考訳(メタデータ) (2023-10-31T16:34:49Z) - Efficient Methods for Non-stationary Online Learning [63.268670895111654]
動的後悔と適応的後悔を最適化する効率的な方法を提案する。
提案アルゴリズムでは,各ラウンドで1つの勾配クエリと1つの関数評価しか必要としない。
また、さらに強力な測度、すなわち「内部的動的後悔」を研究し、ラウンド当たりの射影数を$O(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。