論文の概要: Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy
- arxiv url: http://arxiv.org/abs/2109.14180v1
- Date: Wed, 29 Sep 2021 03:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:46:23.392694
- Title: Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy
- Title(参考訳): 早期停止トラバース戦略による効率的な強化特徴選択
- Authors: Kunpeng Liu, Pengfei Wang, Dongjie Wang, Wan Du, Dapeng Oliver Wu,
Yanjie Fu
- Abstract要約: 単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
- 参考スコア(独自算出の注目度): 36.890295071860166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a single-agent Monte Carlo based reinforced feature
selection (MCRFS) method, as well as two efficiency improvement strategies,
i.e., early stopping (ES) strategy and reward-level interactive (RI) strategy.
Feature selection is one of the most important technologies in data
prepossessing, aiming to find the optimal feature subset for a given downstream
machine learning task. Enormous research has been done to improve its
effectiveness and efficiency. Recently, the multi-agent reinforced feature
selection (MARFS) has achieved great success in improving the performance of
feature selection. However, MARFS suffers from the heavy burden of
computational cost, which greatly limits its application in real-world
scenarios. In this paper, we propose an efficient reinforcement feature
selection method, which uses one agent to traverse the whole feature set, and
decides to select or not select each feature one by one. Specifically, we first
develop one behavior policy and use it to traverse the feature set and generate
training data. And then, we evaluate the target policy based on the training
data and improve the target policy by Bellman equation. Besides, we conduct the
importance sampling in an incremental way, and propose an early stopping
strategy to improve the training efficiency by the removal of skew data. In the
early stopping strategy, the behavior policy stops traversing with a
probability inversely proportional to the importance sampling weight. In
addition, we propose a reward-level interactive strategy to improve the
training efficiency via reward-level external advice. Finally, we design
extensive experiments on real-world data to demonstrate the superiority of the
proposed method.
- Abstract(参考訳): 本稿では,モンテカルロの単エージェント型強化特徴選択(MCRFS)手法と,早期停止(ES)戦略と報酬レベル対話(RI)戦略の2つの効率改善戦略を提案する。
機能選択は、所定の下流機械学習タスクに最適な機能サブセットを見つけることを目的とした、データ前提の最も重要な技術の1つである。
その効果と効率を改善するために、膨大な研究がなされている。
近年,マルチエージェント強化特徴選択(MARFS)は特徴選択の性能向上に大きく貢献している。
しかし、MARFSは計算コストの重い負担に悩まされ、現実のシナリオでは適用が大幅に制限される。
本稿では,1つのエージェントで特徴集合全体をトラバースし,各特徴集合を1つずつ選択するか選択しないかを決定する効率的な強化特徴選択手法を提案する。
具体的には、まず1つの行動ポリシーを開発し、それを機能セットをトラバースし、トレーニングデータを生成する。
そして、トレーニングデータに基づいて目標ポリシーを評価し、ベルマン方程式により目標ポリシーを改善する。
さらに,重要度を漸進的にサンプリングし,スキューデータの除去によるトレーニング効率向上のための早期停止戦略を提案する。
早期停止戦略では、行動ポリシーは、重要サンプリング重量に反比例する確率でトラバースを停止する。
さらに,報酬レベルの外部アドバイスを通じてトレーニング効率を向上させるための報酬レベルの対話戦略を提案する。
最後に,提案手法の優位性を示すために,実世界のデータに関する広範な実験を設計する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。
実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T15:55:04Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Toward Efficient Automated Feature Engineering [27.47868891738917]
自動特徴工学(AFE)は、下流タスクのための最適な特徴集合を自動生成し、選択することを指す。
現在のAFE手法は、主に生成された機能の有効性の改善に重点を置いているが、大規模展開における低効率の問題を無視している。
強化学習設定に基づいてAFEパイプラインを構築し,各特徴をエージェントに割り当てて特徴変換を行う。
分類タスクと回帰タスクの両方の観点から,36のデータセットに関する総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-26T13:18:51Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Active Reinforcement Learning over MDPs [29.59790449462737]
本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。
既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。
論文 参考訳(メタデータ) (2021-08-05T00:18:11Z) - MapGo: Model-Assisted Policy Optimization for Goal-Oriented Tasks [37.529217646431825]
目標志向の強化学習では、過去の経験から生の目標を緩和して、エージェントに後見能力を提供することが、報酬空間の問題に対する主要な解決策である。
FGI(Foresight Goal Inference)は、学習されたダイナミックスモデルで未来を見据えて、目標をリラベルする新しいラベリング戦略である。
サンプル効率を向上させるため,政策学習のためのシミュレーション軌道を生成するために動的モデルを提案する。
論文 参考訳(メタデータ) (2021-05-13T15:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。