論文の概要: Posterior Sampling via Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2405.19466v2
- Date: Tue, 08 Oct 2024 15:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:50.148167
- Title: Posterior Sampling via Autoregressive Generation
- Title(参考訳): 自己回帰生成による後方サンプリング
- Authors: Kelly W Zhang, Tiffany Tianhui Cai, Hongseok Namkoong, Daniel Russo,
- Abstract要約: 本稿では,大規模な履歴データから帯域幅アルゴリズムを学習するための新しいフレームワークを提案する。
我々は、過去のデータを用いて自己回帰モデルを事前訓練し、繰り返しのフィードバック/リワードのシーケンスを予測する。
意思決定時には、各アクションに対して想像された報酬の列を自動で(インプット)サンプリングし、最大平均的な報酬でアクションを選択する。
- 参考スコア(独自算出の注目度): 11.713451719120707
- License:
- Abstract: Real-world decision-making requires grappling with a perpetual lack of data as environments change; intelligent agents must comprehend uncertainty and actively gather information to resolve it. We propose a new framework for learning bandit algorithms from massive historical data, which we demonstrate in a cold-start recommendation problem. First, we use historical data to pretrain an autoregressive model to predict a sequence of repeated feedback/rewards (e.g., responses to news articles shown to different users over time). In learning to make accurate predictions, the model implicitly learns an informed prior based on rich action features (e.g., article headlines) and how to sharpen beliefs as more rewards are gathered (e.g., clicks as each article is recommended). At decision-time, we autoregressively sample (impute) an imagined sequence of rewards for each action, and choose the action with the largest average imputed reward. Far from a heuristic, our approach is an implementation of Thompson sampling (with a learned prior), a prominent active exploration algorithm. We prove our pretraining loss directly controls online decision-making performance, and we demonstrate our framework on a news recommendation task where we integrate end-to-end fine-tuning of a pretrained language model to process news article headline text to improve performance.
- Abstract(参考訳): 知的エージェントは不確実性を理解し、それを解決するために積極的に情報を集める必要がある。
本稿では,大規模な履歴データから帯域幅アルゴリズムを学習するための新しいフレームワークを提案する。
まず、過去のデータを用いて自己回帰モデルを事前訓練し、繰り返しフィードバック/リワードの順序を予測する(例えば、時間とともに異なるユーザに対して表示されるニュース記事に対する応答)。
正確な予測を行うために、モデルは、リッチなアクション特徴(例:記事の見出し)と、より多くの報酬が集められるにつれて信念を研ぐ方法(例:各記事が推奨されるようにクリックする)に基づいて、暗黙的に情報事前を学習する。
意思決定時には、各アクションに対して想像された報酬の列を自動で(インプット)サンプリングし、最大平均的な報酬でアクションを選択する。
ヒューリスティックとは程遠いが、我々のアプローチはトンプソンサンプリング(学習前の学習)の実装であり、注目すべき活発な探索アルゴリズムである。
我々は,事前学習の損失がオンライン意思決定性能を直接制御できることを証明し,事前学習された言語モデルのエンドツーエンド微調整を統合してニュース記事の見出しテキストを処理し,パフォーマンスを向上させるニューズレコメンデーションタスクにおいて,我々のフレームワークを実証する。
関連論文リスト
- SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Federated Continual Learning Goes Online: Uncertainty-Aware Memory Management for Vision Tasks and Beyond [13.867793835583463]
本稿では,破滅的な記憶を解消するための不確実性を考慮したメモリベース手法を提案する。
特定の特性を持つサンプルを検索し、そのようなサンプル上でモデルを再訓練することで、このアプローチの可能性を実証する。
論文 参考訳(メタデータ) (2024-05-29T09:29:39Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - Uncertainty-driven Exploration Strategies for Online Grasp Learning [43.88491290121489]
本稿では,ロボットビンピッキングのための把握予測のオンライン学習のための不確実性に基づくアプローチを提案する。
具体的には、効果的な探索戦略を持つオンライン学習アルゴリズムは、目に見えない環境設定への適応性を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-09-21T13:06:03Z) - Amortised Inference in Bayesian Neural Networks [0.0]
Amortized Pseudo-Observation Variational Inference Bayesian Neural Network (APOVI-BNN)を紹介する。
補正された推論は、従来の変分推論によって得られたものと類似または良好な品質であることが示される。
次に、APOVI-BNNをニューラルプロセスファミリーの新たなメンバーと見なす方法について論じる。
論文 参考訳(メタデータ) (2023-09-06T14:02:33Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Robust Deep Learning for Autonomous Driving [0.0]
モデル信頼度を確実に推定する新しい基準を導入する:真のクラス確率(TCP)
真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。
本研究は, 既知モデルに基づく新たな不確実性尺度を導入することで, 誤分類と分布外サンプルを共同で検出する課題に対処する。
論文 参考訳(メタデータ) (2022-11-14T22:07:11Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。