論文の概要: Static and Dynamic Values of Computation in MCTS
- arxiv url: http://arxiv.org/abs/2002.04335v2
- Date: Thu, 19 Nov 2020 12:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:19:38.267852
- Title: Static and Dynamic Values of Computation in MCTS
- Title(参考訳): MCTSにおける計算の静的および動的値
- Authors: Eren Sezener and Peter Dayan
- Abstract要約: 我々は、最終的に選択されたアクションの品質に対する期待される影響に基づいて、計算の価値を明示的に定量化する。
本研究では, ある仮定の下では, 計算値を厳格に最適化するポリシが最適であることを示し, 最先端技術と競合する結果を得る。
- 参考スコア(独自算出の注目度): 18.74467739418088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte-Carlo Tree Search (MCTS) is one of the most-widely used methods for
planning, and has powered many recent advances in artificial intelligence. In
MCTS, one typically performs computations (i.e., simulations) to collect
statistics about the possible future consequences of actions, and then chooses
accordingly. Many popular MCTS methods such as UCT and its variants decide
which computations to perform by trading-off exploration and exploitation. In
this work, we take a more direct approach, and explicitly quantify the value of
a computation based on its expected impact on the quality of the action
eventually chosen. Our approach goes beyond the "myopic" limitations of
existing computation-value-based methods in two senses: (I) we are able to
account for the impact of non-immediate (ie, future) computations (II) on
non-immediate actions. We show that policies that greedily optimize computation
values are optimal under certain assumptions and obtain results that are
competitive with the state-of-the-art.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は最も広く使われている計画手法の1つであり、人工知能の最近の進歩に力を入れている。
MCTSでは、一般的に計算(シミュレーション)を行い、アクションの将来の結果に関する統計を収集し、それに従って選択する。
UCTやその変種のような多くの一般的なMCTS手法は、トレーディングオフ探索とエクスプロイトによってどの計算を実行するかを決定する。
本研究では、より直接的なアプローチを採り、最終的に選択されたアクションの品質に対する期待される影響に基づいて、計算の値を明示的に定量化する。
提案手法は,従来の計算値に基づく手法の「ミオピック」の限界を超えて,2つの意味を持つ: (I) 即時(ie, future)計算が非即時動作に与える影響を考慮できる。
本研究では, ある仮定の下では, 計算値を厳格に最適化するポリシが最適であることを示す。
関連論文リスト
- Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Evaluating Dynamic Conditional Quantile Treatment Effects with
Applications in Ridesharing [15.35497380896072]
そこで我々は, 動的量子的処理効果(QTE)を, 処理に依存しない特性に基づいて計算するための公式な枠組みを確立した。
次に、2つの可変係数決定プロセス(VCDP)モデルを導入し、動的CQTEをテストする革新的な方法を提案する。
本手法の実用性を実証するため,配車プラットフォームから実世界の3つのデータセットに適用した。
論文 参考訳(メタデータ) (2023-05-17T13:12:48Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Development and Evaluation of Conformal Prediction Methods for QSAR [0.5161531917413706]
定量的構造活性相関モデル(QSAR)は、化合物の生物活性を予測するために一般的に用いられる手法である。
優れた予測性能を達成する機械学習(ML)アルゴリズムの多くは、予測の不確実性を推定するためのいくつかのアドオンメソッドを必要とする。
コンフォーマル予測(CP)は予測アルゴリズムに非依存であり、データ分布の弱い仮定の下で有効な予測間隔を生成できる。
論文 参考訳(メタデータ) (2023-04-03T13:41:09Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。