論文の概要: Geometry Meets Incentives: Sample-Efficient Incentivized Exploration with Linear Contexts
- arxiv url: http://arxiv.org/abs/2506.01685v1
- Date: Mon, 02 Jun 2025 13:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.307691
- Title: Geometry Meets Incentives: Sample-Efficient Incentivized Exploration with Linear Contexts
- Title(参考訳): Geometry Meets Incentives:Linear Contextsを用いたサンプル効率の良いインセンティブ探索
- Authors: Benjamin Schiffer, Mark Sellke,
- Abstract要約: プリンシパルは、自己関心のあるエージェントのシーケンスと対話することで、時間とともに探索し、学習することを目的としている。
この問題に対するインセンティブ互換アルゴリズムの主な課題は、適度な量の初期データを集めることである。
これらの探索障壁は、利用可能な一連の行動において、穏やかな幾何学的条件下で消失することを示す。
- 参考スコア(独自算出の注目度): 7.751607497318266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the incentivized exploration model, a principal aims to explore and learn over time by interacting with a sequence of self-interested agents. It has been recently understood that the main challenge in designing incentive-compatible algorithms for this problem is to gather a moderate amount of initial data, after which one can obtain near-optimal regret via posterior sampling. With high-dimensional contexts, however, this \emph{initial exploration} phase requires exponential sample complexity in some cases, which prevents efficient learning unless initial data can be acquired exogenously. We show that these barriers to exploration disappear under mild geometric conditions on the set of available actions, in which case incentive-compatibility does not preclude regret-optimality. Namely, we consider the linear bandit model with actions in the Euclidean unit ball, and give an incentive-compatible exploration algorithm with sample complexity that scales polynomially with the dimension and other parameters.
- Abstract(参考訳): インセンティブ付き探索モデルでは、主目的は、一連の自己関心のエージェントと対話することで、時間とともに探索し、学習することである。
この問題に対するインセンティブに適合するアルゴリズムを設計する上での課題は、初期データを適度に集めることであり、その後、後続サンプリングにより、ほぼ最適の後悔を得ることができることが近年理解されている。
しかし、高次元の文脈では、この 'emph{initial Explor} 相は指数的なサンプルの複雑さを必要とする場合もあり、初期データが均一に取得されない限り、効率的な学習ができない。
これらの探索障壁は、利用可能な行動の集合において、微妙な幾何学的条件下で消失することを示し、その場合、インセンティブ適合性は、後悔と最適性を妨げない。
すなわち、ユークリッド単位球の作用を伴う線形バンドイットモデルを考察し、次元や他のパラメータと多項式的にスケールするサンプル複雑性を持つインセンティブ互換探索アルゴリズムを提案する。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Incentivizing Exploration with Linear Contexts and Combinatorial Actions [9.15749739027059]
インセンティブ付きバンディット探索では、腕の選択は推奨され、ベイズ的なインセンティブと互換性が求められる。
最近の研究は、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になる、という一定の独立性の仮定の下で示されている。
線形包帯に対してこの結果の類似性を与え、そこでは前者の独立性を自然凸条件に置き換える。
論文 参考訳(メタデータ) (2023-06-03T03:30:42Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。
それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文 参考訳(メタデータ) (2022-08-08T11:51:01Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Simulation-Assisted Decorrelation for Resonant Anomaly Detection [1.5675763601034223]
異常検出に対する弱い、教師なしの機械学習アプローチが増えている。
例の1つは共鳴新しい物理学の探索であり、そこではバンプハントを不変質量スペクトルで行うことができる。
学習に最小限の原型シミュレーションを組み込むことにより,この問題に対する2つの解決策を探求する。
論文 参考訳(メタデータ) (2020-09-04T14:02:15Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。