論文の概要: Quantifying and Extrapolating Data Needs in Radio Frequency Machine
Learning
- arxiv url: http://arxiv.org/abs/2205.03703v1
- Date: Sat, 7 May 2022 18:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 17:32:37.853625
- Title: Quantifying and Extrapolating Data Needs in Radio Frequency Machine
Learning
- Title(参考訳): 高周波機械学習におけるデータの定量化と外挿
- Authors: William H. Clark IV, Alan J. Michaels
- Abstract要約: 本研究では,電波周波数領域における変調分類問題について検討する。
望ましいレベルのパフォーマンスを達成するのに、どの程度のトレーニングデータが必要なのか、という疑問に答えようとしている。
転送学習で発達した転送電位のメトリクスを再取得することにより、境界データ量へのアプローチが発達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the relationship between training data and a model's
performance once deployed is a fundamental component in the application of
machine learning. While the model's deployed performance is dependent on
numerous variables within the scope of machine learning, beyond that of the
training data itself, the effect of the dataset is isolated in this work to
better understand the role training data plays in the problem. This work
examines a modulation classification problem in the Radio Frequency domain
space, attempting to answer the question of how much training data is required
to achieve a desired level of performance, but the procedure readily applies to
classification problems across modalities. By repurposing the metrics of
transfer potential developed within transfer learning an approach to bound data
quantity needs developed given a training approach and machine learning
architecture; this approach is presented as a means to estimate data quantity
requirements to achieve a target performance. While this approach will require
an initial dataset that is germane to the problem space to act as a target
dataset on which metrics are extracted, the goal is to allow for the initial
data to be orders of magnitude smaller than what is required for delivering a
system that achieves the desired performance. An additional benefit of the
techniques presented here is that the quality of different datasets can be
numerically evaluated and tied together with the quantity of data, and the
performance of the system.
- Abstract(参考訳): トレーニングデータと一度デプロイされたモデルのパフォーマンスの関係を理解することは、機械学習の応用における基本的なコンポーネントである。
モデルのデプロイされたパフォーマンスは、トレーニングデータ自体の他、機械学習の範囲内の多数の変数に依存するが、この作業ではデータセットの効果が分離され、トレーニングデータが問題で果たす役割がより深く理解される。
本研究は、周波数領域空間における変調分類問題を調べ、所望の性能を達成するのに訓練データがどの程度必要かという疑問に答えようとするものであるが、その手続きは、モダリティをまたいだ分類問題に容易に適用できる。
トランスファーラーニング内で開発された転送電位のメトリクスを再取得することにより、トレーニングアプローチと機械学習アーキテクチャにより、データ量に対するアプローチが開発され、ターゲット性能を達成するためのデータ量要求を推定する手段として提案される。
このアプローチでは、メトリクスを抽出したターゲットデータセットとして機能するために、問題空間に移行した初期データセットが必要となるが、目標は、望ましいパフォーマンスを達成するシステムの提供に必要なものよりも、初期データを桁違いに小さくすることである。
ここで示したテクニックのもう1つの利点は、異なるデータセットの品質を数値的に評価し、データ量とシステムのパフォーマンスと結びつけることができることである。
関連論文リスト
- An information-matching approach to optimal experimental design and active learning [0.9362620873652918]
候補プールから最も情報に富むトレーニングデータを選択するために,フィッシャー情報行列に基づく情報マッチング基準を導入する。
本稿では,電力系統や水中音響など,様々な科学分野におけるモデリング問題に対するこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-05T02:16:23Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Training Data Augmentation for Deep Learning Radio Frequency Systems [1.1199585259018459]
この研究は、トレーニング中に使用されるデータに焦点を当てている。
一般に、検査されたデータ型はそれぞれ、最終アプリケーションに有用なコントリビューションを持っている。
キャプチャーデータの利点にもかかわらず、ライブコレクションから生じる困難さとコストは、ピークパフォーマンスを達成するのに必要なデータ量を非現実的にすることが多い。
論文 参考訳(メタデータ) (2020-10-01T02:26:16Z) - Overcoming Noisy and Irrelevant Data in Federated Learning [13.963024590508038]
フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。
そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
論文 参考訳(メタデータ) (2020-01-22T22:28:47Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。