論文の概要: Feature Acquisition using Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2212.11360v1
- Date: Wed, 21 Dec 2022 20:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:02:09.444663
- Title: Feature Acquisition using Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索を用いた特徴抽出
- Authors: Sungsoo Lim, Diego Klabjan, Mark Shapiro
- Abstract要約: 特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
- 参考スコア(独自算出の注目度): 18.76745359031975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature acquisition algorithms address the problem of acquiring informative
features while balancing the costs of acquisition to improve the learning
performances of ML models. Previous approaches have focused on calculating the
expected utility values of features to determine the acquisition sequences.
Other approaches formulated the problem as a Markov Decision Process (MDP) and
applied reinforcement learning based algorithms. In comparison to previous
approaches, we focus on 1) formulating the feature acquisition problem as a MDP
and applying Monte Carlo Tree Search, 2) calculating the intermediary rewards
for each acquisition step based on model improvements and acquisition costs and
3) simultaneously optimizing model improvement and acquisition costs with
multi-objective Monte Carlo Tree Search. With Proximal Policy Optimization and
Deep Q-Network algorithms as benchmark, we show the effectiveness of our
proposed approach with experimental study.
- Abstract(参考訳): 特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
他のアプローチでは、問題をマルコフ決定プロセス(mdp)と強化学習に基づくアルゴリズムとして定式化した。
これまでのアプローチと比較すると
1) 特徴獲得問題をMDPとして定式化し、モンテカルロ木探索を適用する。
2 モデル改良及び取得コストに基づく各取得工程の中間報酬の計算
3)マルチオブジェクトモンテカルロ木探索によるモデル改善と取得コストを同時に最適化する。
近位政策最適化と深いqネットワークアルゴリズムをベンチマークとして,提案手法の有効性を実験的に示す。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model [50.636423457653066]
我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。
我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-11T22:24:14Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Costly Features Classification using Monte Carlo Tree Search [5.188762991286163]
我々は,特徴のサブセットを順次選択し,特徴の分類誤差と特徴コストのバランスをとる,コストの高い特徴の分類の問題を考える。
本稿では,まずMDP問題にタスクを投入し,Advantage Actor Criticアルゴリズムを用いて解決する。
論文 参考訳(メタデータ) (2021-02-14T05:18:33Z) - Landscape-Aware Fixed-Budget Performance Regression and Algorithm
Selection for Modular CMA-ES Variants [1.0965065178451106]
市販の教師あり学習手法を用いて,高品質な性能予測が可能であることを示す。
このアプローチを,モジュール型CMA-ESアルゴリズム群から選択した,非常に類似したアルゴリズムのポートフォリオ上でテストする。
論文 参考訳(メタデータ) (2020-06-17T13:34:57Z) - Solve Traveling Salesman Problem by Monte Carlo Tree Search and Deep
Neural Network [8.19063619210761]
本稿では,モンテカルロ木探索と深層強化学習を組み合わせた自己学習手法を提案する。
実験結果から,提案手法は小口径問題設定において,他の手法に対して良好に動作することがわかった。
大規模な問題設定では、最先端のパフォーマンスに匹敵するパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-05-14T11:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。