論文の概要: Thompson Sampling with a Mixture Prior
- arxiv url: http://arxiv.org/abs/2106.05608v1
- Date: Thu, 10 Jun 2021 09:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 17:30:36.240636
- Title: Thompson Sampling with a Mixture Prior
- Title(参考訳): ThompsonがMixture Priorでサンプリング
- Authors: Joey Hong, Branislav Kveton, Manzil Zaheer, Mohammad Ghavamzadeh,
Craig Boutilier
- Abstract要約: 混合分布から不確実な環境をサンプリングするオンライン意思決定問題において,トンプソンサンプリング(TS)について検討した。
我々は,TSの後悔を先行して解析する,新しい一般的な手法を開発した。
- 参考スコア(独自算出の注目度): 59.211830005673896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Thompson sampling (TS) in online decision-making problems where the
uncertain environment is sampled from a mixture distribution. This is relevant
to multi-task settings, where a learning agent is faced with different classes
of problems. We incorporate this structure in a natural way by initializing TS
with a mixture prior -- dubbed MixTS -- and develop a novel, general technique
for analyzing the regret of TS with such priors. We apply this technique to
derive Bayes regret bounds for MixTS in both linear bandits and tabular Markov
decision processes (MDPs). Our regret bounds reflect the structure of the
problem and depend on the number of components and confidence width of each
component of the prior. Finally, we demonstrate the empirical effectiveness of
MixTS in both synthetic and real-world experiments.
- Abstract(参考訳): 混合分布から不確実な環境をサンプリングするオンライン意思決定問題におけるトンプソンサンプリング(TS)について検討した。
これは、学習エージェントが異なるクラスの問題に直面しているマルチタスク設定に関係します。
この構造を,MixTSと呼ばれる前駆体でTSを初期化して自然に組み込むとともに,その前駆体でTSの後悔を分析するための新しい一般的な手法を開発した。
本研究では,MixTS に対するベイズ残差を線形帯域と表型マルコフ決定過程(MDPs)の両方で導出する手法を提案する。
我々の後悔の限界は問題の構造を反映し、前の各コンポーネントのコンポーネントの数と信頼性の幅に依存する。
最後に,MixTSの合成実験および実世界の実験における実証実験の有効性を示す。
関連論文リスト
- ProxiMix: Enhancing Fairness with Proximity Samples in Subgroups [17.672299431705262]
線形ミックスアップのみを使用することで、バイアス軽減のためのデータ拡張テクニックは、データセットラベルにバイアスを保持することができる。
本稿では,既存の混合手法と新たなバイアス軽減アルゴリズムの両方を活用可能な,新しい前処理手法を提案する。
ProxiMixは、より公平なデータ拡張のために、ペアワイズと近接関係を保持します。
論文 参考訳(メタデータ) (2024-10-02T00:47:03Z) - SUMix: Mixup with Semantic and Uncertain Information [41.99721365685618]
混合データ拡張アプローチは、ディープラーニングの様々なタスクに応用されている。
そこで我々は,SUMix という新しい手法を提案し,混合率と混合試料の不確かさを学習する。
論文 参考訳(メタデータ) (2024-07-10T16:25:26Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Image Processing and Machine Learning for Hyperspectral Unmixing: An Overview and the HySUPP Python Package [80.11512905623417]
アンミキシングは、ピクセル内のエンドメンバーの分数量を推定する。
本稿では,先進的および従来型のアンミックス手法の概要について述べる。
シミュレーションされた3つのデータセットと2つの実際のデータセット上でのアンミックス手法の性能を比較した。
論文 参考訳(メタデータ) (2023-08-18T08:10:41Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Unsupervised Source Separation via Self-Supervised Training [0.913755431537592]
単一チャネルの2音源混合音声からの自己教師付き訓練を含む2つの新しい非教師付き音源分離手法を提案する。
最初の方法は、置換不変性トレーニング(PIT)を用いて、人工的に生成した混合物を元の混合物に分離する。
我々は、この最初の方法を改善するために、ソース推定の混合物を作成し、PITを用いてこれらの新しい混合物を循環的に分離する。
私たちは、MixPITが私たちの小さなデータセット(SC09Mix)で共通のベースライン(MixIT)より優れており、標準データセット(LibriMix)で同等のパフォーマンスを持つことを示す。
論文 参考訳(メタデータ) (2022-02-08T14:02:50Z) - An Empirical Study of the Effects of Sample-Mixing Methods for Efficient
Training of Generative Adversarial Networks [0.0]
生成敵対ネットワーク(GAN)のトレーニングは、発電機が高品質のサンプルを提供する前に巨大なイテレーションを必要とすることがよく知られています。
本研究では, この問題を緩和するために, 試料混合法であるMixup, CutMix, SRMixの効果を検討した。
論文 参考訳(メタデータ) (2021-04-08T06:40:23Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。