論文の概要: Signature Approach for Contextual Bandits with Nonlinear and Path-dependent Rewards
- arxiv url: http://arxiv.org/abs/2605.10313v1
- Date: Mon, 11 May 2026 10:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.719761
- Title: Signature Approach for Contextual Bandits with Nonlinear and Path-dependent Rewards
- Title(参考訳): 非線形及び経路依存リワードをもつ文脈帯域の符号的アプローチ
- Authors: Xin Guo, Grace He, Xinyu Li,
- Abstract要約: 我々は,新しいシグネチャ変換に基づくアプローチにより,非線形および経路依存の報酬を伴う文脈的包帯について検討する。
この枠組みに基づいて,署名に基づく不整合上信頼境界(UCB)アルゴリズムである textttDisSigUCB を提案する。
- 参考スコア(独自算出の注目度): 6.2998947322747485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study contextual bandits with nonlinear and path-dependent rewards through a novel signature-transform-based approach. Leveraging the universal nonlinearity property of signatures, we approximate continuous path-dependent reward functionals by linear functionals in the signature space. This representation enables the use of efficient linear contextual bandit methods while preserving expressive sequential structure. Building on this framework, we propose \texttt{DisSigUCB}, a signature-based disjoint upper confidence bound (UCB) algorithm. Under boundedness and non-degeneracy assumptions, we prove a high-probability data-dependent sublinear regret bound of order \(\tilde{\mathcal O}(\sqrt{(d+m)KT})\) where \(d\) is the context dimension and \(m\) is the signature feature dimension. Synthetic experiments and numerical applications on temperature sensor monitoring, sleep-stage classification, and hospital nurse staffing demonstrate that \texttt{DisSigUCB} consistently outperforms classical linear and kernelized contextual bandit baselines in nonlinear and path-dependent settings.
- Abstract(参考訳): 我々は,新しいシグネチャ変換に基づくアプローチにより,非線形および経路依存の報酬を伴う文脈的包帯について検討する。
シグネチャの普遍非線形性を利用して、シグネチャ空間における線形汎函数による連続経路依存報酬函数を近似する。
この表現は、表現的な逐次構造を保持しながら、効率的な線形文脈バンドイット法の使用を可能にする。
この枠組みに基づいて,シグネチャベースの不整合上信頼境界(UCB)アルゴリズムである \texttt{DisSigUCB} を提案する。
有界性(boundedness)と非退化性(non-degeneracy)の仮定の下では、高確率なデータ依存のサブ線形後悔境界の位数 \(\tilde{\mathcal O}(\sqrt{(d+m)KT})\) を証明し、 \(d\) は文脈次元、 \(m\) は特徴的特徴次元である。
温度センサモニタリング、睡眠ステージ分類、病院看護師のスタッフリングに関する合成実験と数値的応用により、‘texttt{DisSigUCB} は、非線形および経路依存の設定において、古典線形およびカーネル化されたコンテキスト帯域ベースラインを一貫して上回ることを示した。
関連論文リスト
- Strips as Tokens: Artist Mesh Generation with Native UV Segmentation [84.90920018424036]
Strips as Tokens (SATO) は三角形のストリップにインスパイアされたトークン注文戦略を持つ新しいフレームワークである。
本手法は,UV境界を明示的に符号化した面の連結連鎖として配列を構成することにより,組織化されたエッジフローを自然に保存する。
この定式化の鍵となる利点は統一表現であり、同じトークン列を三角形または四辺メッシュに復号することができる。
論文 参考訳(メタデータ) (2026-04-10T09:13:09Z) - PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation [30.577077015761585]
トレーニングフリーなオープン語彙セマンティックセマンティックセグメンテーション(OVSS)は、リトレーニングなしで新しいラベルセットに迅速に適応することを約束する。
我々は、アライメント-then-proagateの原理に従うコンパクトな2ステップの推論であるPEARLを提案する。
提案手法は,完全トレーニングフリーでプラグアンドプレイで,固定定数のみを使用し,最小限のレイテンシを付加し,頭部プロジェクションを小さくする。
論文 参考訳(メタデータ) (2026-03-23T03:40:47Z) - Why Linear Interpretability Works: Invariant Subspaces as a Result of Architectural Constraints [5.104181562775778]
線形プローブとスパースオートエンコーダは変圧器表現から意味のある構造を常に復元することを示す。
我々はこれを EmphInvariant Subspace Necessity theorem として定式化し、emphSelf-Reference Property を導出する。
論文 参考訳(メタデータ) (2026-02-10T13:42:55Z) - Laplacian Kernelized Bandit [13.39205221620201]
本研究では,ユーザがグラフによって関連付けられているマルチユーザコンテキスト帯について検討し,その報酬関数は非線形挙動とグラフホモフィリーの両方を示す。
我々の研究は、構造化された探索のために、ラプラシア正規化をカーネル化された帯域で橋渡しする統一的で理論的に基礎づけられた実践的なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-01T20:09:23Z) - Semi-parametric Functional Classification via Path Signatures Logistic Regression [1.210026603224224]
本稿では,ベクトル値関数データを分類するための半パラメトリックフレームワークであるPath Signatures Logistic Regressionを提案する。
この結果は, 粗い経路理論を現代的な関数型データ解析に組み込むことの実用的, 理論的利点を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-07-09T08:06:50Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Sequential Recommendation via Stochastic Self-Attention [68.52192964559829]
Transformerベースのアプローチでは、アイテムをベクトルとして埋め込んで、ドット積の自己アテンションを使用してアイテム間の関係を測定する。
本稿では,これらの問題を克服するための新しいtextbfStochastic textbfSelf-textbfAttention (STOSA) を提案する。
我々は、アイテムと項目の位置関係を列で特徴づける新しいワッサースタイン自己保持モジュールを考案した。
論文 参考訳(メタデータ) (2022-01-16T12:38:45Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。