Fugu-MT 論文翻訳(概要): Incentivizing Exploration with Selective Data Disclosure

論文の概要: Incentivizing Exploration with Selective Data Disclosure

arxiv url: http://arxiv.org/abs/1811.06026v7
Date: Wed, 13 Nov 2024 01:28:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 03:37:51.970486
Title: Incentivizing Exploration with Selective Data Disclosure
Title（参考訳）: 選択的データ開示による探索のインセンティブ付け
Authors: Nicole Immorlica, Jieming Mao, Aleksandrs Slivkins, Zhiwei Steven Wu,
Abstract要約: 効率的な探索を促すレコメンデーションシステムを提案し設計する。エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
参考スコア（独自算出の注目度）: 70.11902902106014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose and design recommendation systems that incentivize efficient exploration. Agents arrive sequentially, choose actions and receive rewards, drawn from fixed but unknown action-specific distributions. The recommendation system presents each agent with actions and rewards from a subsequence of past agents, chosen ex ante. Thus, the agents engage in sequential social learning, moderated by these subsequences. We asymptotically attain optimal regret rate for exploration, using a flexible frequentist behavioral model and mitigating rationality and commitment assumptions inherent in prior work. We suggest three components of effective recommendation systems: independent focus groups, group aggregators, and interlaced information structures.
Abstract（参考訳）: 効率的な探索を促すレコメンデーションシステムを提案し設計する。エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。このレコメンデーションシステムは、選択された元アンテの過去のエージェントのサブシーケンスからのアクションと報酬を各エージェントに提示する。このように、エージェントは、これらのサブシーケンスによって中等化される、シーケンシャルな社会的学習に従事している。我々は、フレキシブルな頻繁な行動モデルを用いて、事前の作業に固有の合理性とコミットメントの仮定を緩和し、探索のために最適な後悔率を漸近的に達成する。効果的な推薦システムの3つの構成要素として,独立したフォーカスグループ,グループアグリゲータ,インターレース情報構造を提案する。

関連論文リスト

When and What to Recommend: Joint Modeling of Timing and Content for Active Sequential Recommendation [15.851073753534521]
我々は、次のインタラクション時間を予測するアクティブレコメンデーションを調査し、アイテムを積極的に届ける。本稿では,ToI と IoI を連立対象とする拡散型フレームワーク PASRec を提案する。
論文参考訳（メタデータ） (2025-11-24T03:16:10Z)
STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。 MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-08-26T08:47:58Z)
Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文参考訳（メタデータ） (2023-08-13T08:12:01Z)
Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文参考訳（メタデータ） (2023-01-20T15:28:09Z)
Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文参考訳（メタデータ） (2022-11-23T22:20:12Z)
Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文参考訳（メタデータ） (2022-06-01T13:46:25Z)
Long-term Dynamics of Fairness Intervention in Connection Recommender Systems [5.048563042541915]
本稿では,Webスケールのソーシャルネットワークが採用するシステムにパターン化されたコネクションレコメンデータシステムについて検討する。全体としては公平に思われるが、共通露出とユーティリティパリティの介入は、長期的なバイアスの増幅を緩和することができない。
論文参考訳（メタデータ） (2022-03-30T16:27:48Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
D2RLIR : an improved and diversified ranking function in interactive recommendation systems based on deep reinforcement learning [0.3058685580689604]
本稿では,アクタ・クリティカルアーキテクチャを用いた深層強化学習に基づく推薦システムを提案する。提案モデルでは,ユーザの嗜好に基づいて,多様かつ関連性の高いレコメンデーションリストを生成することができる。
論文参考訳（メタデータ） (2021-10-28T13:11:29Z)
Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文参考訳（メタデータ） (2020-05-21T12:28:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。