論文の概要: Fast Slate Policy Optimization: Going Beyond Plackett-Luce
- arxiv url: http://arxiv.org/abs/2308.01566v1
- Date: Thu, 3 Aug 2023 07:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:08:22.856959
- Title: Fast Slate Policy Optimization: Going Beyond Plackett-Luce
- Title(参考訳): スレート政策の迅速な最適化 - plackett-luceを超越
- Authors: Otmane Sakhi, David Rohde, Nicolas Chopin
- Abstract要約: 本稿では,任意の報酬関数を与えられた大規模意思決定システムの最適化について述べる。
意思決定機能の新たな緩和から生まれた新しい政策のクラスを提案する。
これにより、巨大なアクション空間にスケールする単純で効率的な学習アルゴリズムが実現される。
- 参考スコア(独自算出の注目度): 6.0158981171030685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasingly important building block of large scale machine learning
systems is based on returning slates; an ordered lists of items given a query.
Applications of this technology include: search, information retrieval and
recommender systems. When the action space is large, decision systems are
restricted to a particular structure to complete online queries quickly. This
paper addresses the optimization of these large scale decision systems given an
arbitrary reward function. We cast this learning problem in a policy
optimization framework and propose a new class of policies, born from a novel
relaxation of decision functions. This results in a simple, yet efficient
learning algorithm that scales to massive action spaces. We compare our method
to the commonly adopted Plackett-Luce policy class and demonstrate the
effectiveness of our approach on problems with action space sizes in the order
of millions.
- Abstract(参考訳): 大規模機械学習システムのますます重要になっているビルディングブロックは、スレートを返すことに基づいている。
この技術には、検索、情報検索、推薦システムが含まれる。
アクションスペースが大きい場合には、決定システムは特定の構造に制限され、オンラインクエリを迅速に完了する。
本稿では,任意の報酬関数を与えられた大規模意思決定システムの最適化について述べる。
我々は,この学習問題を政策最適化フレームワークにキャストし,決定関数の新たな緩和から生まれた新しい種類の政策を提案する。
これにより、巨大なアクション空間にスケールする単純で効率的な学習アルゴリズムが実現される。
提案手法を一般に採用されているPlanet-Luceポリシークラスと比較し,数百万のアクション空間サイズの問題に対するアプローチの有効性を示す。
関連論文リスト
- Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling
Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。
当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文 参考訳(メタデータ) (2023-06-09T08:24:56Z) - Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文 参考訳(メタデータ) (2023-02-10T18:45:52Z) - Fast Offline Policy Optimization for Large Scale Recommendation [74.78213147859236]
我々は、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
私たちの貢献は3つの新しいアイデアの組み合わせに基づいている。
我々の推定器は、単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
論文 参考訳(メタデータ) (2022-08-08T11:54:11Z) - Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems [6.009759445555003]
この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
本研究では,高次元特徴ベクトルを用いた線形帯域問題に対する意思決定ポリシーを開発する。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
論文 参考訳(メタデータ) (2022-02-07T13:51:19Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Adaptive Discretization in Online Reinforcement Learning [9.560980936110234]
離散化に基づくアルゴリズムを設計する際の2つの大きな疑問は、離散化をどのように生成し、いつそれを洗練するかである。
オンライン強化学習のための木に基づく階層分割手法の統一的理論的解析を行う。
我々のアルゴリズムは操作制約に容易に適応し、我々の理論は3つの面のそれぞれに明示的な境界を与える。
論文 参考訳(メタデータ) (2021-10-29T15:06:15Z) - Ranking Cost: Building An Efficient and Scalable Circuit Routing Planner
with Evolution-Based Optimization [49.207538634692916]
そこで我々は、効率よくトレーニング可能なルータを形成するための新しい回路ルーティングアルゴリズム、Randing Costを提案する。
提案手法では,A*ルータが適切な経路を見つけるのに役立つコストマップと呼ばれる新しい変数群を導入する。
我々のアルゴリズムはエンドツーエンドで訓練されており、人工データや人間の実演は一切使用しない。
論文 参考訳(メタデータ) (2021-10-08T07:22:45Z) - SOLO: Search Online, Learn Offline for Combinatorial Optimization
Problems [4.777801093677586]
我々は,機械スケジューリングやルーティング,割当てといった実世界のアプリケーションで問題を研究する。
RL(Reinforcement Learning)とプランニングを組み合わせた手法を提案する。
この方法は、オフラインでも、オンラインでも、問題のコンポーネントが事前に分かっておらず、むしろ意思決定プロセス中に現れるような、問題の変種にも等しく適用することができる。
論文 参考訳(メタデータ) (2021-04-04T17:12:24Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。