論文の概要: Costly Features Classification using Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2102.07073v1
- Date: Sun, 14 Feb 2021 05:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 00:57:09.894362
- Title: Costly Features Classification using Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索を用いたコスト特性分類
- Authors: Ziheng Chen, Jin Huang, Hongshik Ahn, Xin Ning
- Abstract要約: 我々は,特徴のサブセットを順次選択し,特徴の分類誤差と特徴コストのバランスをとる,コストの高い特徴の分類の問題を考える。
本稿では,まずMDP問題にタスクを投入し,Advantage Actor Criticアルゴリズムを用いて解決する。
- 参考スコア(独自算出の注目度): 5.188762991286163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of costly feature classification, where we
sequentially select the subset of features to make a balance between the
classification error and the feature cost. In this paper, we first cast the
task into a MDP problem and use Advantage Actor Critic algorithm to solve it.
In order to further improve the agent's performance and make the policy
explainable, we employ the Monte Carlo Tree Search to update the policy
iteratively. During the procedure, we also consider its performance on the
unbalanced dataset and its sensitivity to the missing value. We evaluate our
model on multiple datasets and find it outperforms other methods.
- Abstract(参考訳): 我々は,特徴のサブセットを順次選択し,特徴の分類誤差と特徴コストのバランスをとる,コストの高い特徴の分類の問題を考える。
本稿では,まずMDP問題にタスクを投入し,Advantage Actor Criticアルゴリズムを用いて解決する。
エージェントのパフォーマンスをさらに改善し、ポリシーを説明できるようにするため、モンテカルロ木探索を用いてポリシーを反復的に更新する。
この過程では,不均衡データセットにおけるその性能と,欠落値に対する感度についても考察する。
複数のデータセットでモデルを評価し、他のメソッドよりも優れています。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Feature Acquisition using Monte Carlo Tree Search [18.76745359031975]
特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
論文 参考訳(メタデータ) (2022-12-21T20:53:44Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Solve Traveling Salesman Problem by Monte Carlo Tree Search and Deep
Neural Network [8.19063619210761]
本稿では,モンテカルロ木探索と深層強化学習を組み合わせた自己学習手法を提案する。
実験結果から,提案手法は小口径問題設定において,他の手法に対して良好に動作することがわかった。
大規模な問題設定では、最先端のパフォーマンスに匹敵するパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-05-14T11:36:40Z) - Efficient Rollout Strategies for Bayesian Optimization [15.050692645517998]
ほとんどの獲得関数はミオピックであり、次の関数評価の影響のみを考慮することを意味する。
準モンテカルロ, 共通乱数, 制御変数の組み合わせはロールアウトの計算負担を著しく低減することを示した。
次に、ロールアウト獲得関数の最適化の必要性を排除したポリシー検索に基づくアプローチを定式化する。
論文 参考訳(メタデータ) (2020-02-24T20:54:08Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。