論文の概要: Incentivized Exploration via Filtered Posterior Sampling
- arxiv url: http://arxiv.org/abs/2402.13338v1
- Date: Tue, 20 Feb 2024 19:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:10:01.604813
- Title: Incentivized Exploration via Filtered Posterior Sampling
- Title(参考訳): フィルター後サンプリングによるインセンティブ付き探索
- Authors: Anand Kalvit, Aleksandrs Slivkins, Yonatan Gur
- Abstract要約: 情報非対称性を活用できる社会学習問題における「インセンティブ付き探索」(IE)について検討し、エージェントにインセンティブを与えて探索行動をとる。
我々は,IE の汎用的解法として,多腕バンディットの文献でよく知られるアルゴリズム的手法である後方サンプリングを同定する。
- 参考スコア(独自算出の注目度): 51.32577788466152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study "incentivized exploration" (IE) in social learning problems where
the principal (a recommendation algorithm) can leverage information asymmetry
to incentivize sequentially-arriving agents to take exploratory actions. We
identify posterior sampling, an algorithmic approach that is well known in the
multi-armed bandits literature, as a general-purpose solution for IE. In
particular, we expand the existing scope of IE in several practically-relevant
dimensions, from private agent types to informative recommendations to
correlated Bayesian priors. We obtain a general analysis of posterior sampling
in IE which allows us to subsume these extended settings as corollaries, while
also recovering existing results as special cases.
- Abstract(参考訳): 本研究では,主席(推薦アルゴリズム)が情報非対称性を活用し,逐次学習エージェントをインセンティブ化し探索行動をとる社会学習問題における「インセンティブ探索」(ie)について検討する。
我々は,IE の汎用的解法として,多腕バンディットの文献でよく知られるアルゴリズム的手法である後方サンプリングを同定する。
特に,IE の既存の範囲を,私的エージェントタイプから情報的レコメンデーション,ベイズ以前の関連性まで,いくつかの面で拡張する。
ie における後方サンプリングの一般的な解析により,これらの拡張設定を登録者として,また既存の結果を特別な事例として回収することができる。
関連論文リスト
- A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。
DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文 参考訳(メタデータ) (2024-10-21T02:27:24Z) - Data Augmentation for Sequential Recommendation: A Survey [9.913317029557588]
シーケンシャルレコメンデーション(SR)は、現実の状況との整合性から多くの注目を集めている。
SRのためのデータ拡張(DA)手法の総合的なレビューを行う。
論文 参考訳(メタデータ) (2024-09-20T14:39:42Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Generalized Video Anomaly Event Detection: Systematic Taxonomy and
Comparison of Deep Models [33.43062232461652]
ビデオ異常検出(VAD)は、インテリジェント監視システムにおいて重要な技術である。
本調査は,GA(Generalized Video Anomaly Event Detection, GVAED)と呼ばれる幅広いスペクトルを含む,教師なしの手法を超えて,従来のVODの範囲を拡張した。
論文 参考訳(メタデータ) (2023-02-10T07:11:37Z) - Back-to-Bones: Rediscovering the Role of Backbones in Domain
Generalization [1.6799377888527687]
ドメイン一般化は、学習外分布に一般化する深層学習モデルの能力を研究する。
近年の研究では、DGの再現可能なベンチマークが提供され、既存のアルゴリズムに対する経験的リスク最小化(ERM)の有効性が指摘されている。
本稿では,その内在的一般化能力を包括的に分析するバックボーンの評価を行う。
論文 参考訳(メタデータ) (2022-09-02T15:30:17Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。