論文の概要: Diffusion Models Meet Contextual Bandits
- arxiv url: http://arxiv.org/abs/2402.10028v3
- Date: Tue, 28 Oct 2025 12:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.821012
- Title: Diffusion Models Meet Contextual Bandits
- Title(参考訳): 拡散モデルとコンテキスト帯域
- Authors: Imad Aouali,
- Abstract要約: 本研究では,事前学習した拡散モデルを表現的先行として利用し,複雑な行動依存を捉える。
そこで本稿では, 高速な更新とサンプリングを両立させ, 奥行きを効率的に近似する実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.995087247817663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient online decision-making in contextual bandits is challenging, as methods without informative priors often suffer from computational or statistical inefficiencies. In this work, we leverage pre-trained diffusion models as expressive priors to capture complex action dependencies and develop a practical algorithm that efficiently approximates posteriors under such priors, enabling both fast updates and sampling. Empirical results demonstrate the effectiveness and versatility of our approach across diverse contextual bandit settings.
- Abstract(参考訳): 文脈的包帯における効率的なオンライン意思決定は困難であり、情報的先行性を持たない手法は計算的あるいは統計的非効率性に悩まされることが多い。
本研究では,事前学習した拡散モデルを表現的先行モデルとして活用し,複雑な動作依存を捉えるとともに,そのような先行条件下で後方を効率的に近似し,高速な更新とサンプリングを可能にする実用的なアルゴリズムを開発する。
実験結果から, 多様な文脈的帯域設定におけるアプローチの有効性と汎用性を示した。
関連論文リスト
- Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Improved Diffusion-based Generative Model with Better Adversarial Robustness [65.38540020916432]
拡散確率モデル(DPM)は、生成タスクにおいて大きな成功を収めた。
デノナイジングプロセスでは、入力データ分布はトレーニングと推論の段階によって異なる。
論文 参考訳(メタデータ) (2025-02-24T12:29:16Z) - Exploratory Diffusion Model for Unsupervised Reinforcement Learning [28.413426177336703]
非教師なし強化学習(URL)は、報酬のない環境で多様な状態やスキルを探索し、エージェントを事前訓練することを目的としている。
既存の手法は、探索されたデータをモデル化し、さらなる探索を促進するために本質的な報酬を設計する。
実験データに適合する拡散モデルの強い表現能力を利用する探索拡散モデル(ExDM)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - Adaptive Non-uniform Timestep Sampling for Accelerating Diffusion Model Training [6.694752081172194]
データ分布が複雑化するにつれて、収束のためのトレーニング拡散モデルがますます複雑になる。
より重要な時間ステップを優先する一様でない時間ステップサンプリング手法を提案する。
提案手法は, 各種データセット, スケジューリング戦略, 拡散アーキテクチャにまたがるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-11-15T07:12:18Z) - Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model [22.39558434131574]
拡散モデルに対する既存のデータ帰属法は、典型的にはトレーニングサンプルの寄与を定量化する。
拡散損失の直接的利用は,拡散損失の計算により,そのような貢献を正確に表すことはできない。
本研究の目的は, 予測分布と属性スコアとの直接比較を計測し, トレーニングサンプルの重要性を分析することである。
論文 参考訳(メタデータ) (2024-10-24T10:58:17Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Amortized Posterior Sampling with Diffusion Prior Distillation [55.03585818289934]
Amortized Posterior Smplingは、逆問題における効率的な後方サンプリングのための新しい変分推論手法である。
本手法は,拡散モデルにより暗黙的に定義された変動分布と後続分布とのばらつきを最小限に抑えるために条件付き流れモデルを訓練する。
既存の手法とは異なり、我々のアプローチは教師なしであり、ペア化されたトレーニングデータを必要としておらず、ユークリッドと非ユークリッドの両方のドメインに適用できる。
論文 参考訳(メタデータ) (2024-07-25T09:53:12Z) - Bigger is not Always Better: Scaling Properties of Latent Diffusion Models [46.52780730073693]
遅延拡散モデル (LDM) のスケーリング特性について, サンプリング効率に着目して検討した。
モデルサイズがサンプリング効率にどのように影響するかを,様々なサンプリングステップで詳細に調査する。
予測予算の下で運用する場合、より小さなモデルは、高品質な結果を生み出す上で、より大きな等価性を上回ることがよくあります。
論文 参考訳(メタデータ) (2024-04-01T17:59:48Z) - Bayesian Off-Policy Evaluation and Learning for Large Action Spaces [14.203316003782604]
対話型システムでは、アクションはよく相関し、よりサンプリング効率の良いオフ・ポリシーの評価と学習の機会を提供する。
我々は、これらの相関関係を構造化および情報的事前を通じて捉えるために、統一されたベイズ的枠組みを導入する。
我々は,OPEとOPLの一般ベイズ的アプローチであるsDMを提案する。
論文 参考訳(メタデータ) (2024-02-22T16:09:45Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Zero-Inflated Bandits [11.60342504007264]
そこでは,ゼロ膨らみ分布と呼ばれる古典的半パラメトリック分布を用いて報酬をモデル化する。
我々は、この特定の構造のためのアッパー信頼境界とトンプソンサンプリングフレームワークに基づくアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-12-25T03:13:21Z) - DSCom: A Data-Driven Self-Adaptive Community-Based Framework for
Influence Maximization in Social Networks [3.97535858363999]
我々は、属性ネットワーク上の問題を再構成し、ノード属性を利用して接続ノード間の近接性を推定する。
具体的には、この問題に対処するため、DSComという機械学習ベースのフレームワークを提案する。
従来の理論的研究と比較して,実世界のソーシャルネットワークに基づくパラメータ化拡散モデルを用いた実験実験を慎重に設計した。
論文 参考訳(メタデータ) (2023-11-18T14:03:43Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - An Operational Perspective to Fairness Interventions: Where and How to
Intervene [9.833760837977222]
フェアネス介入の評価と文脈化のための包括的枠組みを提案する。
予測パリティに関するケーススタディで、我々のフレームワークを実証する。
グループデータを使わずに予測パリティを実現することは困難である。
論文 参考訳(メタデータ) (2023-02-03T07:04:33Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - Contextual Bandits with Large Action Spaces: Made Practical [48.28690486203131]
本稿では,連続的かつ線形に構造化された行動空間を持つコンテキスト的帯域に対する,最初の効率的汎用アルゴリズムを提案する。
提案アルゴリズムは,教師付き学習のための計算オラクル,および (ii) 動作空間を最適化し, 動作空間のサイズによらず, サンプルの複雑性, 実行時間, メモリを実現する。
論文 参考訳(メタデータ) (2022-07-12T21:01:48Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。