論文の概要: Exploring Large Action Sets with Hyperspherical Embeddings using von Mises-Fisher Sampling
- arxiv url: http://arxiv.org/abs/2507.00518v1
- Date: Tue, 01 Jul 2025 07:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.467683
- Title: Exploring Large Action Sets with Hyperspherical Embeddings using von Mises-Fisher Sampling
- Title(参考訳): von Mises-Fisher サンプリングによる超球面埋め込みによる大規模アクションセットの探索
- Authors: Walid Bendada, Guillaume Salha-Galvan, Romain Hennequin, Théo Bontempelli, Thomas Bouabça, Tristan Cazenave,
- Abstract要約: vMF-expは、超球面埋め込みを用いた大規模アクションセットを探索するためのスケーラブルな方法である。
我々は、vMF-expがボルツマン探索(B-exp)と同じ行動を示すことを示す。
シミュレーションデータ,実世界の公開データ,そしてグローバル音楽ストリーミングサービスのレコメンデータシステムにおけるvMF-expの大規模展開を成功させた実験は,提案手法の重要な特性を実証的に検証した。
- 参考スコア(独自算出の注目度): 9.891081535950516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces von Mises-Fisher exploration (vMF-exp), a scalable method for exploring large action sets in reinforcement learning problems where hyperspherical embedding vectors represent these actions. vMF-exp involves initially sampling a state embedding representation using a von Mises-Fisher distribution, then exploring this representation's nearest neighbors, which scales to virtually unlimited numbers of candidate actions. We show that, under theoretical assumptions, vMF-exp asymptotically maintains the same probability of exploring each action as Boltzmann Exploration (B-exp), a popular alternative that, nonetheless, suffers from scalability issues as it requires computing softmax values for each action. Consequently, vMF-exp serves as a scalable alternative to B-exp for exploring large action sets with hyperspherical embeddings. Experiments on simulated data, real-world public data, and the successful large-scale deployment of vMF-exp on the recommender system of a global music streaming service empirically validate the key properties of the proposed method.
- Abstract(参考訳): 本稿では,超球面埋め込みベクトルがこれらの作用を表す強化学習問題において,大規模な作用集合を探索するスケーラブルな方法であるvon Mises-Fisher Explor(vMF-exp)を紹介する。
vMF-expは最初、von Mises-Fisher分布を使って状態埋め込み表現をサンプリングし、次に、この表現の最も近い隣人の探索を行う。
理論的前提の下では、vMF-expはボルツマン探索(B-exp)と同じ確率を漸近的に維持することを示した。
したがって、vMF-expは超球面埋め込みを持つ大きなアクション集合を探索するB-expのスケーラブルな代替品として機能する。
シミュレーションデータ,実世界の公開データ,そしてグローバル音楽ストリーミングサービスのレコメンデータシステムにおけるvMF-expの大規模展開を成功させた実験は,提案手法の重要な特性を実証的に検証した。
関連論文リスト
- Exploratory Diffusion Model for Unsupervised Reinforcement Learning [28.413426177336703]
非教師なし強化学習(URL)は、報酬のない環境で多様な状態やスキルを探索し、エージェントを事前訓練することを目的としている。
既存の手法は、探索されたデータをモデル化し、さらなる探索を促進するために本質的な報酬を設計する。
実験データに適合する拡散モデルの強い表現能力を利用する探索拡散モデル(ExDM)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - Preferential Normalizing Flows [9.073645394501082]
ノイズの多い判断によって専門家から高次元の確率分布を除外することは、非常に難しいが、多くのアプリケーションにとって有用である。
本稿では,主観的質問のみに基づく正規化フローとして,専門家の信念密度を抽出する手法を提案する。
本研究では, 信念密度を関数空間最大値として推定できることを示す。
論文 参考訳(メタデータ) (2024-10-11T10:53:38Z) - SEMF: Supervised Expectation-Maximization Framework for Predicting Intervals [0.8192907805418583]
Supervised expectation-Maximization Framework (SEMF)は、任意のMLモデルで予測間隔を生成するための汎用的でモデルに依存しないアプローチである。
SEMFは、所望のカバレッジ確率を維持しながら、常により狭い予測間隔を生成する。
量子(スピンボール)損失を使わずに、SEMFは勾配ブースト木やニューラルネットワークを含む点予測器を共形量子レグレッションで校正することができる。
論文 参考訳(メタデータ) (2024-05-28T13:43:34Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。