論文の概要: LLM-AUG: Robust Wireless Data Augmentation with In-Context Learning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.17770v1
- Date: Mon, 20 Apr 2026 03:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.681382
- Title: LLM-AUG: Robust Wireless Data Augmentation with In-Context Learning in Large Language Models
- Title(参考訳): LLM-AUG:大規模言語モデルにおける文脈学習によるロバスト無線データ拡張
- Authors: Pranshav Gajjar, Manan Tiwari, Sayanta Seth, Vijay K. Shah,
- Abstract要約: 本稿では,大規模言語モデル(LLM)における文脈内学習を活用するデータ拡張フレームワークを提案する。
訓練タスク固有のモデルを必要とする従来の生成アプローチとは異なり、LLM-AUGは構造化プロンプトを通じてデータ生成を行う。
その結果,LDM-AUGは,低撮影環境において,従来の拡張と深部生成のベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 1.8332654441845688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity remains a fundamental bottleneck in applying deep learning to wireless communication problems, particularly in scenarios where collecting labeled Radio Frequency (RF) data is expensive, time-consuming, or operationally constrained. This paper proposes LLM-AUG, a data augmentation framework that leverages in-context learning in large language models (LLMs) to generate synthetic training samples directly in a learned embedding space. Unlike conventional generative approaches that require training task-specific models, LLM-AUG performs data generation through structured prompting, enabling rapid adaptation in low-shot regimes. We evaluate LLM-AUG on two representative tasks: modulation classification and interference classification using the RadioML 2016.10A dataset, and the Interference Classification (IC) dataset respectively. Results show that LLM-AUG consistently outperforms traditional augmentation and deep generative baselines across low-shot settings and reaches near oracle performance using only 15% labeled data. LLM-AUG further demonstrates improved robustness under distribution shifts, yielding a 29.4% relative gain over diffusion-based augmentation at a lower SNR value. On the RadioML and IC datasets, LLM-AUG yields a relative gain of 67.6% and 35.7% over the diffusion-based baseline. The t-SNE visualizations further validate that synthetic samples generated by better preserve class structure in the embedding space, leading to more consistent and informative augmentations. These results demonstrate that LLMs can serve as effective and practical data augmenters for wireless machine learning, enabling robust and data-efficient learning in evolving wireless environments.
- Abstract(参考訳): データ不足は、特にラベル付きRF(Radio Frequency)データの収集が高価、時間を要する、あるいは運用上の制約のあるシナリオにおいて、無線通信問題にディープラーニングを適用する上で、依然として根本的なボトルネックとなっている。
本稿では,LLM-AUGを提案する。LLM-AUGは,大規模言語モデル(LLM)における文脈内学習を利用して,学習した埋め込み空間に直接合成学習サンプルを生成するデータ拡張フレームワークである。
訓練タスク固有のモデルを必要とする従来の生成アプローチとは異なり、LLM-AUGは構造化プロンプトを通じてデータ生成を行い、ローショットレギュレーションの迅速な適応を可能にする。
我々は,RadioML 2016.10AデータセットとICデータセットを用いて,変調分類と干渉分類の2つの代表的なタスクについてLLM-AUGを評価した。
その結果,LLM-AUG は低ショット設定で従来の拡張と深部生成のベースラインを一貫して上回り,15% のラベル付きデータのみを用いてオラクルに近い性能に到達していることがわかった。
LLM-AUGはさらに、分散シフト下での堅牢性の向上を実証し、より低いSNR値での拡散ベースの増大よりも29.4%向上した。
RadioMLとICデータセットでは、LLM-AUGは拡散ベースのベースラインよりも67.6%、35.7%上昇している。
t-SNEビジュアライゼーションは、組込み空間におけるクラス構造をよりよく保存することで生成される合成サンプルがより一貫性があり、情報的な拡張をもたらすことをさらに証明する。
これらの結果から,LLMは無線機械学習に有効かつ実用的なデータ拡張器として機能し,進化する無線環境においてロバストかつデータ効率のよい学習を可能にすることが示唆された。
関連論文リスト
- AsynDBT: Asynchronous Distributed Bilevel Tuning for efficient In-Context Learning with Large Language Models [4.4866154758274375]
In-context Learning (ICL) は、LLMが入力内で提供される例を使って新しいタスクに適応できる有望なパラダイムとして登場した。
ICLを組み込んだ以前のFLアプローチは、重度のストラグラー問題と、異種非同一データに関連する課題に悩まされてきた。
本稿では,LLMからのフィードバックに基づいて,文脈内学習サンプルの最適化とフラグメントのプロンプトを行う非同期分散バイレベルチューニング(AsynDBT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-06T13:07:49Z) - Semantics-Aware Generative Latent Data Augmentation for Learning in Low-Resource Domains [27.911250327145115]
本稿では,ジェネリックデータ拡張フレームワークであるGeLDAを提案する。
この空間は低次元であり、入力空間と比較してタスク関連情報に集中するため、GeLDAは効率的で高品質なデータ生成を可能にする。
ゼロショット言語固有の音声感情認識において、GeLDAは、Whisper-largeベースラインの未重み付き平均リコールを6.13%改善し、(b)ロングテール画像分類では、ImageNet-LT上で74.7%のテールクラスの精度を達成する。
論文 参考訳(メタデータ) (2026-02-02T21:43:54Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [65.04475956174959]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLにおける重要な課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータの敵ジャミングに対する感受性である。
本稿では,無線ネットワーク上での大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いたレジリエンスSFLのための物理層フレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。