論文の概要: Thompson Sampling with Diffusion Generative Prior
- arxiv url: http://arxiv.org/abs/2301.05182v1
- Date: Thu, 12 Jan 2023 18:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:23:28.164863
- Title: Thompson Sampling with Diffusion Generative Prior
- Title(参考訳): 拡散生成前のトンプソンサンプリング
- Authors: Yu-Guan Hsieh, Shiva Prasad Kasiviswanathan, Branislav Kveton, Patrick
Bl\"obaum
- Abstract要約: 本稿では,基礎となるタスク分布を学習し,トンプソンサンプリングと学習したタスクを組み合わせて,新しいタスクをテスト時に処理する拡散モデルを提案する。
本アルゴリズムは,学習者の環境との相互作用から生じる雑音と,学習前の環境とのバランスを慎重に行うように設計されている。
また,現実的なバンディットシナリオを捉えるために,不完全および/またはノイズの多いデータからトレーニングを行う新しい拡散モデルトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 20.69774298882897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we initiate the idea of using denoising diffusion models to
learn priors for online decision making problems. Our special focus is on the
meta-learning for bandit framework, with the goal of learning a strategy that
performs well across bandit tasks of a same class. To this end, we train a
diffusion model that learns the underlying task distribution and combine
Thompson sampling with the learned prior to deal with new tasks at test time.
Our posterior sampling algorithm is designed to carefully balance between the
learned prior and the noisy observations that come from the learner's
interaction with the environment. To capture realistic bandit scenarios, we
also propose a novel diffusion model training procedure that trains even from
incomplete and/or noisy data, which could be of independent interest. Finally,
our extensive experimental evaluations clearly demonstrate the potential of the
proposed approach.
- Abstract(参考訳): 本研究は,オンライン意思決定問題の事前学習に拡散モデルを用いた手法を導入する。
我々は,同クラスのバンドイットタスクに対して,優れた戦略を学習することを目的とした,バンドイットフレームワークのメタラーニングに重点を置いている。
そこで我々は,基礎となるタスク分布を学習し,トンプソンサンプリングと学習したタスクを組み合わせて,新しいタスクをテスト時に処理する拡散モデルを訓練する。
後者のサンプリングアルゴリズムは,学習者と環境との相互作用から生じる騒音観測とを慎重にバランスさせるように設計されている。
また,現実的なバンディットシナリオを捉えるために,不完全データやノイズデータからトレーニングを行う新たな拡散モデルトレーニング手法を提案する。
最後に,提案手法の可能性を明確に実証する実験を行った。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - GUIDE: Guidance-based Incremental Learning with Diffusion Models [21.259034167927975]
既存の生成戦略は、生成モデルからランダムにリハーサル例をサンプリングすることで破滅的忘れと戦う。
このギャップを拡散モデルと誘導手法を統合することで橋渡しし、継続的に訓練されたモデルで忘れられた情報を対象としたリハーサル例を作成することを提案する。
実験の結果,GUIDEは破滅的忘れを著しく減らし,従来のランダムサンプリング手法より優れ,生成的再生を伴う継続的な学習における最近の最先端手法を超越した。
論文 参考訳(メタデータ) (2024-03-06T18:47:32Z) - Observation-Guided Diffusion Probabilistic Models [45.60819186624553]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散モデルを提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強い拡散モデルベースラインに対する多種多様な推論手法を用いた学習アルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。