Fugu-MT 論文翻訳(概要): Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting

論文の概要: Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting

arxiv url: http://arxiv.org/abs/2205.03703v2
Date: Fri, 14 Jun 2024 17:33:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 22:09:03.000303
Title: Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting
Title（参考訳）: Zeroからのトレーニング: 無線周波数機械学習のデータ量予測
Authors: William H. Clark IV, Alan J. Michaels,
Abstract要約: 任意のアプリケーション空間でトレーニング中に使用されるデータは、一度デプロイされたシステムのパフォーマンスに直接関連している。機械学習の分野で使われている親指の基本的なルールの1つは、より多くのデータがより良いモデルにつながることだ。本研究では,電波周波数領域における変調分類問題について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The data used during training in any given application space is directly tied to the performance of the system once deployed. While there are many other factors that go into producing high performance models within machine learning, there is no doubt that the data used to train a system provides the foundation from which to build. One of the underlying rule of thumb heuristics used within the machine learning space is that more data leads to better models, but there is no easy answer for the question, "How much data is needed?" This work examines a modulation classification problem in the Radio Frequency domain space, attempting to answer the question of how much training data is required to achieve a desired level of performance, but the procedure readily applies to classification problems across modalities. The ultimate goal is determining an approach that requires the least amount of data collection to better inform a more thorough collection effort to achieve the desired performance metric. While this approach will require an initial dataset that is germane to the problem space to act as a \textit{target} dataset on which metrics are extracted, the goal is to allow for the initial data to be orders of magnitude smaller than what is required for delivering a system that achieves the desired performance. An additional benefit of the techniques presented here is that the quality of different datasets can be numerically evaluated and tied together with the quantity of data, and ultimately, the performance of the architecture in the problem domain.
Abstract（参考訳）: 任意のアプリケーション空間でトレーニング中に使用されるデータは、一度デプロイされたシステムのパフォーマンスに直接関連している。機械学習の高性能モデルの生成には他にも多くの要因があるが、システムのトレーニングに使用されるデータが、構築する基盤を提供することは間違いない。機械学習の分野で使われている親指ヒューリスティックスの根底にあるルールの1つは、より多くのデータがより良いモデルに繋がるということだ。本研究は、無線周波数領域における変調分類問題について検討し、所望の性能レベルを達成するのにどの程度のトレーニングデータが必要であるかという疑問に答えようとするが、この手順は容易にモダリティにまたがる分類問題に適用できる。最終的なゴールは、望まれるパフォーマンス指標を達成するために、より徹底的なコレクションの取り組みをよりよく知らせるために、最小限のデータ収集を必要とするアプローチを決定することです。このアプローチでは、メトリクスを抽出する‘textit{target}データセット’として機能するために、問題領域にドイツ語で書かれた初期データセットが必要になるが、目標は、望まれるパフォーマンスを達成するシステムを提供する上で必要なものよりも、初期データを桁違いに小さくできるようにすることである。ここで提示されるテクニックのさらなる利点は、異なるデータセットの品質を数値的に評価し、データ量と結び付けることができ、最終的には問題領域におけるアーキテクチャのパフォーマンスが向上するということです。

関連論文リスト

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。 Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文参考訳（メタデータ） (2025-05-18T03:10:00Z)
An information-matching approach to optimal experimental design and active learning [0.9362620873652918]
候補プールから最も情報に富むトレーニングデータを選択するために,フィッシャー情報行列に基づく情報マッチング基準を導入する。本稿では,電力系統や水中音響など,様々な科学分野におけるモデリング問題に対するこのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-11-05T02:16:23Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Building Manufacturing Deep Learning Models with Minimal and Imbalanced Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文参考訳（メタデータ） (2023-05-31T21:45:34Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:19:05Z)
How Much More Data Do I Need? Estimating Requirements for Downstream Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か? データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文参考訳（メタデータ） (2022-07-04T21:16:05Z)
Training Data Augmentation for Deep Learning Radio Frequency Systems [1.1199585259018459]
この研究は、トレーニング中に使用されるデータに焦点を当てている。一般に、検査されたデータ型はそれぞれ、最終アプリケーションに有用なコントリビューションを持っている。キャプチャーデータの利点にもかかわらず、ライブコレクションから生じる困難さとコストは、ピークパフォーマンスを達成するのに必要なデータ量を非現実的にすることが多い。
論文参考訳（メタデータ） (2020-10-01T02:26:16Z)
Overcoming Noisy and Irrelevant Data in Federated Learning [13.963024590508038]
フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
論文参考訳（メタデータ） (2020-01-22T22:28:47Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。