論文の概要: Active Exploration via Autoregressive Generation of Missing Data
- arxiv url: http://arxiv.org/abs/2405.19466v3
- Date: Wed, 05 Feb 2025 10:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:38.698771
- Title: Active Exploration via Autoregressive Generation of Missing Data
- Title(参考訳): 欠測データの自己回帰生成によるアクティブな探索
- Authors: Tiffany Tianhui Cai, Hongseok Namkoong, Daniel Russo, Kelly W Zhang,
- Abstract要約: 自己回帰シーケンスモデルからのトレーニングと生成の問題として,オンライン意思決定において不確実な定量化と探索を行う。
われわれのアプローチは、適切な行動選択によって明らかになるであろう将来の成果の欠如から生じる不確実性に頼っている。
- 参考スコア(独自算出の注目度): 11.713451719120707
- License:
- Abstract: We pose uncertainty quantification and exploration in online decision-making as a problem of training and generation from an autoregressive sequence model, an area experiencing rapid innovation. Our approach rests on viewing uncertainty as arising from missing future outcomes that would be revealed through appropriate action choices, rather than from unobservable latent parameters of the environment. This reformulation aligns naturally with modern machine learning capabilities: we can i) train generative models through next-outcome prediction rather than fit explicit priors, ii) assess uncertainty through autoregressive generation rather than parameter sampling, and iii) adapt to new information through in-context learning rather than explicit posterior updating. To showcase these ideas, we formulate a challenging meta-bandit problem where effective performance requires leveraging unstructured prior information (like text features) while exploring judiciously to resolve key remaining uncertainties. We validate our approach through both theory and experiments. Our theory establishes a reduction, showing success at offline next-outcome prediction translates to reliable online uncertainty quantification and decision-making, even with strategically collected data. Semi-synthetic experiments show our insights bear out in a news-article recommendation task, where article text can be leveraged to minimize exploration.
- Abstract(参考訳): 我々は、迅速な革新を経験する自己回帰シーケンスモデルからトレーニングと生成の問題として、オンライン意思決定において不確実な定量化と探索を行う。
我々のアプローチは、環境の観測不可能な潜伏パラメータからではなく、適切な行動選択によって明らかになるであろう将来の成果の欠如から生じる不確実性に頼っている。
この改革は、現代の機械学習能力と自然に一致します。
一 明示的な先入観に適合せず、次回の成果予測により生成モデルを訓練すること。
二 パラメータサンプリングよりも自己回帰生成による不確実性の評価及び
三 明示的な後続更新ではなく、文脈内学習により新たな情報に適応すること。
これらの概念を実証するために,未構造化の事前情報(テキストの特徴など)を効果的に活用する上で,重要な不確実性を解決するために疑似的に探索する,困難なメタバンディット問題を定式化する。
我々は理論と実験の両方を通してアプローチを検証する。
我々の理論では、オフラインの次のアウトカム予測の成功は、戦略的に収集されたデータであっても、信頼性の高いオンライン不確実性定量化と意思決定に変換される。
半合成実験は、記事のテキストを利用して探索を最小限に抑えるニューズ・アーティクル・レコメンデーション・タスクにおいて、私たちの洞察が浮き彫りになっていることを示している。
関連論文リスト
- SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Federated Continual Learning Goes Online: Uncertainty-Aware Memory Management for Vision Tasks and Beyond [13.867793835583463]
本稿では,破滅的な記憶を解消するための不確実性を考慮したメモリベース手法を提案する。
特定の特性を持つサンプルを検索し、そのようなサンプル上でモデルを再訓練することで、このアプローチの可能性を実証する。
論文 参考訳(メタデータ) (2024-05-29T09:29:39Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - Uncertainty-driven Exploration Strategies for Online Grasp Learning [43.88491290121489]
本稿では,ロボットビンピッキングのための把握予測のオンライン学習のための不確実性に基づくアプローチを提案する。
具体的には、効果的な探索戦略を持つオンライン学習アルゴリズムは、目に見えない環境設定への適応性を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-09-21T13:06:03Z) - Amortised Inference in Bayesian Neural Networks [0.0]
Amortized Pseudo-Observation Variational Inference Bayesian Neural Network (APOVI-BNN)を紹介する。
補正された推論は、従来の変分推論によって得られたものと類似または良好な品質であることが示される。
次に、APOVI-BNNをニューラルプロセスファミリーの新たなメンバーと見なす方法について論じる。
論文 参考訳(メタデータ) (2023-09-06T14:02:33Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Robust Deep Learning for Autonomous Driving [0.0]
モデル信頼度を確実に推定する新しい基準を導入する:真のクラス確率(TCP)
真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。
本研究は, 既知モデルに基づく新たな不確実性尺度を導入することで, 誤分類と分布外サンプルを共同で検出する課題に対処する。
論文 参考訳(メタデータ) (2022-11-14T22:07:11Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。