論文の概要: AlphaRank: An Artificial Intelligence Approach for Ranking and Selection
Problems
- arxiv url: http://arxiv.org/abs/2402.00907v1
- Date: Thu, 1 Feb 2024 03:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:16:48.125458
- Title: AlphaRank: An Artificial Intelligence Approach for Ranking and Selection
Problems
- Title(参考訳): AlphaRank: ランク付けと選択の問題に対する人工知能アプローチ
- Authors: Ruihan Zhou, L. Jeff Hong and Yijie Peng
- Abstract要約: 固定予算ランキングと選択(R&S)問題に対処する人工知能アプローチであるAlphaRankを紹介する。
逐次サンプリング決定をマルコフ決定プロセスとして定式化し,モンテカルロシミュレーションに基づくロールアウトポリシーを提案する。
我々は、ディープラーニングを用いて、所定の事前に基づいてニューラルネットワークモデルをオフラインでトレーニングすることで、オンラインサンプルアロケーションを加速する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AlphaRank, an artificial intelligence approach to address the
fixed-budget ranking and selection (R&S) problems. We formulate the sequential
sampling decision as a Markov decision process and propose a Monte Carlo
simulation-based rollout policy that utilizes classic R&S procedures as base
policies for efficiently learning the value function of stochastic dynamic
programming. We accelerate online sample-allocation by using deep reinforcement
learning to pre-train a neural network model offline based on a given prior. We
also propose a parallelizable computing framework for large-scale problems,
effectively combining "divide and conquer" and "recursion" for enhanced
scalability and efficiency. Numerical experiments demonstrate that the
performance of AlphaRank is significantly improved over the base policies,
which could be attributed to AlphaRank's superior capability on the trade-off
among mean, variance, and induced correlation overlooked by many existing
policies.
- Abstract(参考訳): alpharankは,r&s(fixed-budget ranking and selection)問題に対処するための人工知能アプローチである。
マルコフ決定過程として逐次サンプリング決定を定式化し,古典的なR&S手順を基本方針として,確率動的プログラミングの値関数を効率的に学習するモンテカルロシミュレーションに基づくロールアウトポリシーを提案する。
深層強化学習を用いて、所定の事前に基づいてオフラインでニューラルネットワークモデルを事前学習することにより、オンラインサンプルアロケーションを高速化する。
また,大規模問題に対する並列化可能な計算フレームワークを提案し,スケーラビリティと効率を向上させるために「分割と征服」と「再帰」を効果的に組み合わせた。
数値実験により、AlphaRankの性能は基本方針よりも大幅に改善され、これはAlphaRankが多くの既存の政策で見落とされた平均、分散および誘導相関のトレードオフにおける優れた能力に起因していると考えられる。
関連論文リスト
- Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization [1.1510009152620668]
自己改善学習のための単純で問題に依存しないシーケンス復号法を提案する。
以前にサンプリングされたシーケンスを無視するためにポリシーを変更することで、目に見えない代替案のみを検討するように強制する。
本手法は,ジョブショップスケジューリング問題における従来のNCO手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-24T12:06:09Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。