論文の概要: Thompson Sampling with Diffusion Generative Prior
- arxiv url: http://arxiv.org/abs/2301.05182v1
- Date: Thu, 12 Jan 2023 18:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:23:28.164863
- Title: Thompson Sampling with Diffusion Generative Prior
- Title(参考訳): 拡散生成前のトンプソンサンプリング
- Authors: Yu-Guan Hsieh, Shiva Prasad Kasiviswanathan, Branislav Kveton, Patrick
Bl\"obaum
- Abstract要約: 本稿では,基礎となるタスク分布を学習し,トンプソンサンプリングと学習したタスクを組み合わせて,新しいタスクをテスト時に処理する拡散モデルを提案する。
本アルゴリズムは,学習者の環境との相互作用から生じる雑音と,学習前の環境とのバランスを慎重に行うように設計されている。
また,現実的なバンディットシナリオを捉えるために,不完全および/またはノイズの多いデータからトレーニングを行う新しい拡散モデルトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 20.69774298882897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we initiate the idea of using denoising diffusion models to
learn priors for online decision making problems. Our special focus is on the
meta-learning for bandit framework, with the goal of learning a strategy that
performs well across bandit tasks of a same class. To this end, we train a
diffusion model that learns the underlying task distribution and combine
Thompson sampling with the learned prior to deal with new tasks at test time.
Our posterior sampling algorithm is designed to carefully balance between the
learned prior and the noisy observations that come from the learner's
interaction with the environment. To capture realistic bandit scenarios, we
also propose a novel diffusion model training procedure that trains even from
incomplete and/or noisy data, which could be of independent interest. Finally,
our extensive experimental evaluations clearly demonstrate the potential of the
proposed approach.
- Abstract(参考訳): 本研究は,オンライン意思決定問題の事前学習に拡散モデルを用いた手法を導入する。
我々は,同クラスのバンドイットタスクに対して,優れた戦略を学習することを目的とした,バンドイットフレームワークのメタラーニングに重点を置いている。
そこで我々は,基礎となるタスク分布を学習し,トンプソンサンプリングと学習したタスクを組み合わせて,新しいタスクをテスト時に処理する拡散モデルを訓練する。
後者のサンプリングアルゴリズムは,学習者と環境との相互作用から生じる騒音観測とを慎重にバランスさせるように設計されている。
また,現実的なバンディットシナリオを捉えるために,不完全データやノイズデータからトレーニングを行う新たな拡散モデルトレーニング手法を提案する。
最後に,提案手法の可能性を明確に実証する実験を行った。
関連論文リスト
- Joint Diffusion models in Continual Learning [4.013156524547073]
共同拡散モデルに基づく生成的リハーサルを用いた連続学習法であるJDCLを紹介する。
生成的再生に基づく連続学習手法は、生成的モデルからサンプリングされた新しいデータとリハーサルデータを組み合わせたモデルの再学習によってこの問題を緩和しようとする。
このような共有パラメトリゼーションと知識蒸留技術を組み合わせることで、破滅的な忘れをせずに新しいタスクに安定した適応ができることを示す。
論文 参考訳(メタデータ) (2024-11-12T22:35:44Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - GUIDE: Guidance-based Incremental Learning with Diffusion Models [3.046689922445082]
GUIDEは,拡散モデルからサンプルのリハーサルを誘導する,新しい連続学習手法である。
実験の結果,GUIDEは破滅的忘れを著しく減らし,従来のランダムサンプリング手法より優れ,生成的再生を伴う継続的な学習における最近の最先端の手法を超越した。
論文 参考訳(メタデータ) (2024-03-06T18:47:32Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。