論文の概要: RLBoost: Boosting Supervised Models using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.14115v1
- Date: Tue, 23 May 2023 14:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:31:05.206116
- Title: RLBoost: Boosting Supervised Models using Deep Reinforcement Learning
- Title(参考訳): RLBoost: 深層強化学習を用いた教師付きモデルの強化
- Authors: Eloy Anguiano Batanero, \'Angela Fern\'andez Pascual, \'Alvaro Barbero
Jim\'enez
- Abstract要約: RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality or data evaluation is sometimes a task as important as
collecting a large volume of data when it comes to generating accurate
artificial intelligence models. In fact, being able to evaluate the data can
lead to a larger database that is better suited to a particular problem because
we have the ability to filter out data obtained automatically of dubious
quality. In this paper we present RLBoost, an algorithm that uses deep
reinforcement learning strategies to evaluate a particular dataset and obtain a
model capable of estimating the quality of any new data in order to improve the
final predictive quality of a supervised learning model. This solution has the
advantage that of being agnostic regarding the supervised model used and,
through multi-attention strategies, takes into account the data in its context
and not only individually. The results of the article show that this model
obtains better and more stable results than other state-of-the-art algorithms
such as LOO, DataShapley or DVRL.
- Abstract(参考訳): データ品質やデータ評価は、正確な人工知能モデルを生成する上で、大量のデータを集めるのと同じくらい重要なタスクである。
実際、データを評価することは、疑わしい品質のデータを自動でフィルタリングする能力があるため、特定の問題により適したより大きなデータベースにつながる可能性がある。
本稿では,深層強化学習戦略を用いて特定のデータセットを評価し,教師付き学習モデルの最終的な予測品質を改善するために,新たなデータの品質を推定可能なモデルを得るためのアルゴリズムrlboostを提案する。
このソリューションは、使用する教師付きモデルに非依存であり、マルチアテンション戦略を通じて、個々のデータだけでなく、そのコンテキストにおけるデータを考慮するという利点がある。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。
リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - Data Excellence for AI: Why Should You Care [9.421161233914251]
ベンチマークデータセットは、モデルが存在し、運用される世界全体を定義する。
もし「データが新しい石油である」ならば、データ自体がより効率的な使用のために最適化されるような精製工場の作業は依然として欠落しています。
論文 参考訳(メタデータ) (2021-11-19T19:06:03Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。