論文の概要: Learning with Incomplete Context: Linear Contextual Bandits with Pretrained Imputation
- arxiv url: http://arxiv.org/abs/2510.09908v1
- Date: Fri, 10 Oct 2025 22:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.686605
- Title: Learning with Incomplete Context: Linear Contextual Bandits with Pretrained Imputation
- Title(参考訳): 不完全文脈による学習:事前制約付き命令付き線形文脈帯域
- Authors: Hao Yan, Heyan Zhang, Yongyi Guo,
- Abstract要約: PULSE-UCBは、補助データに基づいて訓練された事前学習モデルを利用して、オンライン意思決定中に欠落した特徴を暗示するアルゴリズムである。
その結果、予測された文脈における不確実性が意思決定の質に与える影響と、下流学習を改善するためにどれだけの歴史的データが必要とされるかが定量化される。
- 参考スコア(独自算出の注目度): 4.956682471555875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large-scale pretrained models has made it feasible to generate predictive or synthetic features at low cost, raising the question of how to incorporate such surrogate predictions into downstream decision-making. We study this problem in the setting of online linear contextual bandits, where contexts may be complex, nonstationary, and only partially observed. In addition to bandit data, we assume access to an auxiliary dataset containing fully observed contexts--common in practice since such data are collected without adaptive interventions. We propose PULSE-UCB, an algorithm that leverages pretrained models trained on the auxiliary data to impute missing features during online decision-making. We establish regret guarantees that decompose into a standard bandit term plus an additional component reflecting pretrained model quality. In the i.i.d. context case with H\"older-smooth missing features, PULSE-UCB achieves near-optimal performance, supported by matching lower bounds. Our results quantify how uncertainty in predicted contexts affects decision quality and how much historical data is needed to improve downstream learning.
- Abstract(参考訳): 大規模事前学習モデルの台頭により、予測的または合成的特徴を低コストで生成することが可能となり、そのような代理予測を下流の意思決定に組み込む方法について疑問が持ち上がった。
本研究では, 文脈が複雑であり, 非定常であり, 部分的にのみ観察されるオンライン線形コンテキストバンドレットの設定において, この問題を考察する。
バンディットデータに加えて,適応的介入なしに収集されるため,完全に観察された文脈を含む補助的データセットへのアクセスも想定する。
PULSE-UCBは、補助データに基づいて訓練された事前学習モデルを利用して、オンライン意思決定中に欠落した特徴を暗示するアルゴリズムである。
我々は、標準バンディット項に分解された後悔の保証と、事前訓練されたモデル品質を反映した追加のコンポーネントを確立する。
H\ 古いスムーズな特徴を持つ i.d. コンテキストの場合、PULSE-UCB は、一致した下界によってサポートされ、ほぼ最適性能を達成する。
その結果、予測された文脈における不確実性が意思決定の質に与える影響と、下流学習を改善するためにどれだけの歴史的データが必要とされるかが定量化される。
関連論文リスト
- Data Curation Matters: Model Collapse and Spurious Shift Performance Prediction from Training on Uncurated Text Embeddings [0.0]
未処理のテキスト埋め込み(TE)のトレーニングモデルは、モデル崩壊として知られる深刻な障害モードにつながる可能性がある。
データキュレーションのプロキシとしてTE品質の新しい視点を提供する。
これらの知見は、よりニュアンスなキュレーションの必要性と埋め込みに基づく表現の評価を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-22T11:01:41Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Improved Visual Fine-tuning with Natural Language Supervision [36.250244364023665]
視覚的事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用することができる。
術前訓練した背骨における破折性忘れの問題は、微調整のために広く研究されている。
固定テキスト分類器から得られた参照分布を導入し,学習した視覚分類器の正規化を支援する。
論文 参考訳(メタデータ) (2023-04-04T03:08:02Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。