論文の概要: Towards Domain Adaptive Neural Contextual Bandits
- arxiv url: http://arxiv.org/abs/2406.09564v2
- Date: Tue, 22 Oct 2024 02:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:45.637639
- Title: Towards Domain Adaptive Neural Contextual Bandits
- Title(参考訳): ドメイン適応型ニューラルコンテキスト帯域に向けて
- Authors: Ziyan Wang, Xiaoming Huo, Hao Wang,
- Abstract要約: 文脈的包帯に対する第1次一般領域適応法を提案する。
提案手法は,ソースドメインからのフィードバックを収集することで,対象ドメインの帯域幅モデルを学習する。
実験結果から,本手法は実世界のデータセット上での最先端の文脈的帯域幅アルゴリズムよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 14.279622200163736
- License:
- Abstract: Contextual bandit algorithms are essential for solving real-world decision making problems. In practice, collecting a contextual bandit's feedback from different domains may involve different costs. For example, measuring drug reaction from mice (as a source domain) and humans (as a target domain). Unfortunately, adapting a contextual bandit algorithm from a source domain to a target domain with distribution shift still remains a major challenge and largely unexplored. In this paper, we introduce the first general domain adaptation method for contextual bandits. Our approach learns a bandit model for the target domain by collecting feedback from the source domain. Our theoretical analysis shows that our algorithm maintains a sub-linear regret bound even adapting across domains. Empirical results show that our approach outperforms the state-of-the-art contextual bandit algorithms on real-world datasets.
- Abstract(参考訳): コンテキストバンディットアルゴリズムは現実世界の意思決定問題を解決するのに不可欠である。
実際には、異なるドメインからコンテキスト的バンディットのフィードバックを集めるには、異なるコストがかかる可能性がある。
例えば、(ソースドメインとして)マウスと(ターゲットドメインとして)ヒトからの薬物反応を測定する。
残念ながら、ソースドメインからターゲットドメインへの分散シフトによるコンテキスト帯域幅アルゴリズムの適用は依然として大きな課題であり、ほとんど探索されていない。
本稿では,文脈的包帯に対する最初の一般領域適応手法を提案する。
提案手法は,ソースドメインからのフィードバックを収集することで,対象ドメインの帯域幅モデルを学習する。
理論的解析により、我々のアルゴリズムは、領域間で適応するサブ線形後悔境界を維持していることが示された。
実験結果から,本手法は実世界のデータセット上での最先端の文脈的帯域幅アルゴリズムよりも優れていることが示された。
関連論文リスト
- Domain Generalization via Causal Adjustment for Cross-Domain Sentiment
Analysis [59.73582306457387]
クロスドメイン感情分析における領域一般化の問題に焦点をあてる。
本稿では,ドメイン固有表現とドメイン不変表現をアンタングル化するバックドア調整に基づく因果モデルを提案する。
一連の実験は、我々のモデルの優れたパフォーマンスと堅牢性を示しています。
論文 参考訳(メタデータ) (2024-02-22T13:26:56Z) - Gradual Domain Adaptation: Theory and Algorithms [15.278170387810409]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへのモデルをワンオフで適応する。
本研究ではまず,GDAアルゴリズムである漸進的な自己学習を理論的に解析し,より優れた一般化バウンダリを提供する。
我々は、$textbfG$enerative Gradual D$textbfO$main $textbfA$daptation with Optimal $textbfT$ransport (GOAT)を提案する。
論文 参考訳(メタデータ) (2023-10-20T23:02:08Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - ReMask: A Robust Information-Masking Approach for Domain Counterfactual
Generation [16.275230631985824]
ドメインのカウンターファクト生成は、テキストをソースドメインから特定のターゲットドメインに変換することを目的としています。
我々は、周波数とアテンションノルムに基づくマスキングを含む3段階のドメイン難読化アプローチを用いて、ドメイン固有のキューをマスキングし、ドメインの一般的なコンテキストを復元する。
本モデルは, 対向領域適応設定における平均精度を1.4%向上させることにより, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2023-05-04T14:19:02Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Model-Based Domain Generalization [96.84818110323518]
本稿では,モデルベースドメイン一般化問題に対する新しいアプローチを提案する。
我々のアルゴリズムは、最新のwildsベンチマークの最先端手法を最大20ポイント上回った。
論文 参考訳(メタデータ) (2021-02-23T00:59:02Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Unsupervised Cross-domain Image Classification by Distance Metric Guided
Feature Alignment [11.74643883335152]
教師なしドメイン適応は、ソースドメインからターゲットドメインに知識を転送する有望な道である。
本稿では,距離メトリックガイド機能アライメント(MetFA)を提案する。
我々のモデルは、クラス分布アライメントを統合して、ソースドメインからターゲットドメインにセマンティック知識を転送します。
論文 参考訳(メタデータ) (2020-08-19T13:36:57Z) - Contradistinguisher: A Vapnik's Imperative to Unsupervised Domain
Adaptation [7.538482310185133]
本研究では,コントラスト特徴を学習するContradistinguisherと呼ばれるモデルを提案する。
Office-31とVisDA-2017における最先端のデータセットを、シングルソースとマルチソースの両方で実現しています。
論文 参考訳(メタデータ) (2020-05-25T19:54:38Z) - Unsupervised Domain Adaptive Object Detection using Forward-Backward
Cyclic Adaptation [13.163271874039191]
本稿では,フォワード・バック・サイクリック(FBC)トレーニングによる物体検出のための教師なし領域適応手法を提案する。
近年, 対角訓練に基づく領域適応法は, 限界特徴分布アライメントによる領域差最小化に有効であることが示された。
本稿では,後方ホッピングによるソースからターゲットへの適応と,前方通過によるターゲットからソースへの適応を反復的に計算するフォワード・バック・サイクル適応を提案する。
論文 参考訳(メタデータ) (2020-02-03T06:24:58Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。