論文の概要: Generator-Mediated Bandits: Thompson Sampling for GenAI-Powered Adaptive Interventions
- arxiv url: http://arxiv.org/abs/2505.16311v1
- Date: Thu, 22 May 2025 07:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.10748
- Title: Generator-Mediated Bandits: Thompson Sampling for GenAI-Powered Adaptive Interventions
- Title(参考訳): ジェネレータを用いた適応干渉のためのトンプソンサンプリング
- Authors: Marc Brooks, Gabriel Durham, Kihyuk Hong, Ambuj Tewari,
- Abstract要約: 我々はジェネレータを用いたバンド・トンプソンサンプリング(GAMBITTS)を導入する。
GAMBITTSは、標準手法に対する政策学習を加速するために、提供された治療の情報を用いて、治療と報酬の生成プロセスを明示的にモデル化する。
シミュレーション研究において、GAMBITTSは期待される報酬をより正確に推定するために観察された治療を活用することで、従来のアルゴリズムよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 15.027122089807053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative artificial intelligence (GenAI) models have enabled the generation of personalized content that adapts to up-to-date user context. While personalized decision systems are often modeled using bandit formulations, the integration of GenAI introduces new structure into otherwise classical sequential learning problems. In GenAI-powered interventions, the agent selects a query, but the environment experiences a stochastic response drawn from the generative model. Standard bandit methods do not explicitly account for this structure, where actions influence rewards only through stochastic, observed treatments. We introduce generator-mediated bandit-Thompson sampling (GAMBITTS), a bandit approach designed for this action/treatment split, using mobile health interventions with large language model-generated text as a motivating case study. GAMBITTS explicitly models both the treatment and reward generation processes, using information in the delivered treatment to accelerate policy learning relative to standard methods. We establish regret bounds for GAMBITTS by decomposing sources of uncertainty in treatment and reward, identifying conditions where it achieves stronger guarantees than standard bandit approaches. In simulation studies, GAMBITTS consistently outperforms conventional algorithms by leveraging observed treatments to more accurately estimate expected rewards.
- Abstract(参考訳): 生成人工知能(GenAI)モデルの最近の進歩により、最新のユーザコンテキストに適応するパーソナライズされたコンテンツの生成が可能になった。
パーソナライズされた意思決定システムは、しばしばバンド形式を用いてモデル化されるが、GenAIの統合は、古典的な逐次学習問題に新しい構造を導入する。
GenAIを利用した介入では、エージェントはクエリを選択するが、生成モデルから引き出された確率的応答を環境が経験する。
標準バンディット法はこの構造を明示的には説明していないが、行動は確率的、観察された治療によってのみ報酬に影響を与える。
本稿では,大規模言語モデル生成テキストを用いたモバイルヘルス介入をモチベーションケーススタディとして用い,この行動/治療分割のために設計されたバンディットアプローチであるGAMBITTS(Generator-mediated bandit-Thompson sample)を紹介する。
GAMBITTSは、標準手法に対する政策学習を加速するために、提供された治療の情報を用いて、治療と報酬の生成プロセスを明示的にモデル化する。
我々は、治療と報酬の不確実性の源を分解し、標準バンディットアプローチよりも強い保証を達成できる条件を特定することで、GAMBITTSに対する後悔の限界を確立する。
シミュレーション研究において、GAMBITTSは期待される報酬をより正確に推定するために観察された治療を活用することで、従来のアルゴリズムよりも一貫して優れている。
関連論文リスト
- AI-GenBench: A New Ongoing Benchmark for AI-Generated Image Detection [9.540547388707987]
Ai-GenBenchは、現実のシナリオにおけるAI生成イメージの堅牢な検出の必要性に対処するために設計された、新しいベンチマークである。
Ai-GenBenchは、明確な評価ルールと制御された拡張戦略を確立することにより、検出方法とスケーラブルなソリューションの有意義な比較を可能にする。
論文 参考訳(メタデータ) (2025-04-29T15:41:13Z) - Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:39:29Z) - Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study [1.5936659933030128]
モバイルヘルス介入は、ジャスト・イン・タイム・アダプティブ・イン・タイム・イン・アダプティブ・介入によって近位結果の最適化によって、臨床症状などの遠位結果を改善することを目的としている。
コンテキストブレイディットは、個々の時間によって異なるコンテキストに応じて、そのような介入をカスタマイズするための適切なフレームワークを提供する。
現在の作業では、カウントデータモデルをオンライン意思決定アプローチに活用することで、この問題に対処している。
論文 参考訳(メタデータ) (2023-11-24T09:02:24Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Genetic Imitation Learning by Reward Extrapolation [6.340280403330784]
我々は,遺伝的アルゴリズムと模倣学習を統合したGenILという手法を提案する。
遺伝的アルゴリズムの関与は、様々なリターンで軌道を再現することで、データ効率を向上させる。
我々はAtariドメインとMujocoドメインの両方でGenILをテストし、その結果、以前の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-01-03T14:12:28Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。