論文の概要: Feature Acquisition using Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2212.11360v1
- Date: Wed, 21 Dec 2022 20:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:02:09.444663
- Title: Feature Acquisition using Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索を用いた特徴抽出
- Authors: Sungsoo Lim, Diego Klabjan, Mark Shapiro
- Abstract要約: 特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
- 参考スコア(独自算出の注目度): 18.76745359031975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature acquisition algorithms address the problem of acquiring informative
features while balancing the costs of acquisition to improve the learning
performances of ML models. Previous approaches have focused on calculating the
expected utility values of features to determine the acquisition sequences.
Other approaches formulated the problem as a Markov Decision Process (MDP) and
applied reinforcement learning based algorithms. In comparison to previous
approaches, we focus on 1) formulating the feature acquisition problem as a MDP
and applying Monte Carlo Tree Search, 2) calculating the intermediary rewards
for each acquisition step based on model improvements and acquisition costs and
3) simultaneously optimizing model improvement and acquisition costs with
multi-objective Monte Carlo Tree Search. With Proximal Policy Optimization and
Deep Q-Network algorithms as benchmark, we show the effectiveness of our
proposed approach with experimental study.
- Abstract(参考訳): 特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
他のアプローチでは、問題をマルコフ決定プロセス(mdp)と強化学習に基づくアルゴリズムとして定式化した。
これまでのアプローチと比較すると
1) 特徴獲得問題をMDPとして定式化し、モンテカルロ木探索を適用する。
2 モデル改良及び取得コストに基づく各取得工程の中間報酬の計算
3)マルチオブジェクトモンテカルロ木探索によるモデル改善と取得コストを同時に最適化する。
近位政策最適化と深いqネットワークアルゴリズムをベンチマークとして,提案手法の有効性を実験的に示す。
関連論文リスト
- $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model [50.636423457653066]
我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。
我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-11T22:24:14Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Model-Free Algorithm with Improved Sample Efficiency for Zero-Sum Markov
Games [71.0315408565146]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Explainable Landscape Analysis in Automated Algorithm Performance
Prediction [0.0]
自動アルゴリズムの性能予測において,異なる教師付き機械学習モデルによって活用される問題景観の特徴の表現性について検討する。
教師付きML回帰モデルでは,問題ランドスケープの特徴が異なるため,教師付きML手法の選択が重要であることを実験的に指摘した。
論文 参考訳(メタデータ) (2022-03-22T15:54:17Z) - Costly Features Classification using Monte Carlo Tree Search [5.188762991286163]
我々は,特徴のサブセットを順次選択し,特徴の分類誤差と特徴コストのバランスをとる,コストの高い特徴の分類の問題を考える。
本稿では,まずMDP問題にタスクを投入し,Advantage Actor Criticアルゴリズムを用いて解決する。
論文 参考訳(メタデータ) (2021-02-14T05:18:33Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Landscape-Aware Fixed-Budget Performance Regression and Algorithm
Selection for Modular CMA-ES Variants [1.0965065178451106]
市販の教師あり学習手法を用いて,高品質な性能予測が可能であることを示す。
このアプローチを,モジュール型CMA-ESアルゴリズム群から選択した,非常に類似したアルゴリズムのポートフォリオ上でテストする。
論文 参考訳(メタデータ) (2020-06-17T13:34:57Z) - Solve Traveling Salesman Problem by Monte Carlo Tree Search and Deep
Neural Network [8.19063619210761]
本稿では,モンテカルロ木探索と深層強化学習を組み合わせた自己学習手法を提案する。
実験結果から,提案手法は小口径問題設定において,他の手法に対して良好に動作することがわかった。
大規模な問題設定では、最先端のパフォーマンスに匹敵するパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-05-14T11:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。