論文の概要: WAPTS: A Weighted Allocation Probability Adjusted Thompson Sampling Algorithm for High-Dimensional and Sparse Experiment Settings
- arxiv url: http://arxiv.org/abs/2501.03999v1
- Date: Tue, 07 Jan 2025 18:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 16:58:03.127747
- Title: WAPTS: A Weighted Allocation Probability Adjusted Thompson Sampling Algorithm for High-Dimensional and Sparse Experiment Settings
- Title(参考訳): WAPTS:高次元・スパース実験設定のためのトンプソンサンプリングアルゴリズム
- Authors: Haochen Song, Ilya Musabirov, Ananya Bhattacharjee, Audrey Durand, Meredith Franklin, Anna Rafferty, Joseph Jay Williams,
- Abstract要約: このジレンマに対する一般的な解決策は、Contextual Banditフレームワークである。
その利点にもかかわらず、Contextual Banditアルゴリズムは測定バイアスや「次元の曲線」といった課題に直面している。
- 参考スコア(独自算出の注目度): 10.565276803897325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming for more effective experiment design, such as in video content advertising where different content options compete for user engagement, these scenarios can be modeled as multi-arm bandit problems. In cases where limited interactions are available due to external factors, such as the cost of conducting experiments, recommenders often face constraints due to the small number of user interactions. In addition, there is a trade-off between selecting the best treatment and the ability to personalize and contextualize based on individual factors. A popular solution to this dilemma is the Contextual Bandit framework. It aims to maximize outcomes while incorporating personalization (contextual) factors, customizing treatments such as a user's profile to individual preferences. Despite their advantages, Contextual Bandit algorithms face challenges like measurement bias and the 'curse of dimensionality.' These issues complicate the management of numerous interventions and often lead to data sparsity through participant segmentation. To address these problems, we introduce the Weighted Allocation Probability Adjusted Thompson Sampling (WAPTS) algorithm. WAPTS builds on the contextual Thompson Sampling method by using a dynamic weighting parameter. This improves the allocation process for interventions and enables rapid optimization in data-sparse environments. We demonstrate the performance of our approach on different numbers of arms and effect sizes.
- Abstract(参考訳): 異なるコンテンツオプションがユーザエンゲージメントと競合するビデオコンテンツ広告など、より効果的な実験設計を目指して、これらのシナリオをマルチアームバンディット問題としてモデル化することができる。
実験のコストなどの外部要因によって限られたインタラクションが利用可能である場合、リコメンダは少数のユーザインタラクションのために制約に直面します。
さらに、最良の治療を選択することと、個々の要因に基づいてパーソナライズし、コンテキスト化する能力との間にはトレードオフがある。
このジレンマに対する一般的な解決策は、Contextual Banditフレームワークである。
個人化(コンテキスト)の要素を取り入れた結果の最大化を目標とし、ユーザのプロファイルなどの治療を個別の嗜好にカスタマイズする。
その利点にもかかわらず、Contextual Banditアルゴリズムは測定バイアスや「次元の曲線」といった課題に直面している。
これらの問題は、多くの介入の管理を複雑にし、しばしば参加者のセグメンテーションを通じてデータの分散につながる。
これらの問題に対処するために、重み付き割当確率調整トンプソンサンプリング(WAPTS)アルゴリズムを導入する。
WAPTSは動的重み付けパラメータを用いて文脈的トンプソンサンプリング法に基づいている。
これにより、介入の割り当てプロセスが改善され、データスパース環境での迅速な最適化が可能になる。
我々は、異なる武器数と効果サイズに対するアプローチの性能を実証する。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Submodular Maximization Approaches for Equitable Client Selection in Federated Learning [4.167345675621377]
従来の学習フレームワークでは、トレーニングのためのクライアント選択は、通常、各イテレーションでクライアントのサブセットをランダムにサンプリングする。
本稿では,ランダムクライアント選択の限界に対処するために,SUBTRUNCとUNIONFLという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T22:40:31Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Optimization-Driven Adaptive Experimentation [7.948144726705323]
実世界の実験には、バッチで遅延したフィードバック、非定常性、複数の目的と制約、そして(時には)パーソナライゼーションが含まれる。
これらの課題にプロブレム単位で対処するための適応的手法の調整は不可能であり、静的設計はデファクトスタンダードのままである。
本稿では,多種多様な目的,制約,統計的手順を柔軟に組み込む数学的プログラミングの定式化について述べる。
論文 参考訳(メタデータ) (2024-08-08T16:29:09Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Adaptive Experimental Design for Policy Learning [9.54473759331265]
複数の治療アームを用いたポリシー学習のための最適適応型実験設計について検討する。
サンプリング段階では、プランナーは、順次到着した実験ユニットに対して、処理アームを適応的に割り当てる。
実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。
論文 参考訳(メタデータ) (2024-01-08T09:29:07Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Latent Alignment with Deep Set EEG Decoders [44.128689862889715]
本稿では,脳波伝達学習大会のベンチマークで優勝した潜在アライメント手法を紹介する。
我々は,その定式化を,与えられた被験者の試行セットに適用したディープセットとして提示する。
実験の結果,深層学習モデルにおける後段の統計的分布アライメントの実行は,分類精度に有益であることが示唆された。
論文 参考訳(メタデータ) (2023-11-29T12:40:45Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Personalized Algorithmic Recourse with Preference Elicitation [20.78332455864586]
PEARは、エンドユーザーのニーズに合わせてパーソナライズされたアルゴリズムの講義を提供する。
PEARは、ベイジアン選好引用からの洞察に基づいて、ターゲットユーザに対して選択セットクエリを尋ねることで、アクションのコストを反復的に見積もる。
実世界のデータセットに対する実証的な評価は、PEARがいかに高品質なパーソナライズされたリコースをほんの数イテレーションで生成するかを強調します。
論文 参考訳(メタデータ) (2022-05-27T03:12:18Z) - Statistical Inference After Adaptive Sampling for Longitudinal Data [9.468593929311867]
本研究では,Z推定による適応的なサンプルデータに対して,様々な統計的解析を行う新しい手法を開発した。
本研究は, 実験プロセスのための新しい理論ツールを開発し, 個別の関心を持つ可能性のある, 適応的にサンプル化された長手データについて述べる。
論文 参考訳(メタデータ) (2022-02-14T23:48:13Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。
提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。
ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-04-01T07:01:30Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。