論文の概要: PReD: An LLM-based Foundation Multimodal Model for Electromagnetic Perception, Recognition, and Decision
- arxiv url: http://arxiv.org/abs/2603.28183v1
- Date: Mon, 30 Mar 2026 08:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.312724
- Title: PReD: An LLM-based Foundation Multimodal Model for Electromagnetic Perception, Recognition, and Decision
- Title(参考訳): PReD:電磁知覚・認識・決定のためのLLMに基づく基礎的マルチモーダルモデル
- Authors: Zehua Han, Jing Xiao, Yiqi Duan, Mengyu Xiang, Yuheng Ji, Xiaolong Zheng, Chenghanyu Zhang, Zhendong She, Junyu Shen, Dingwei Tan, Shichu Sun, Zhou Cong, Mingxuan Liu, Fengxiang Wang, Jinping Sun, Yangang Sun,
- Abstract要約: PReDは電磁(EM)領域の最初の基礎モデルであり、「知覚、認識、決定」のインテリジェント閉ループをカバーする。
信号検出、変調認識、パラメータ推定、プロトコル認識、無線周波数指紋認識、アンチジャミング決定など、さまざまなコアタスクをサポートする。
エンドツーエンドの信号理解から言語駆動推論や意思決定に至るまで,クローズドループ最適化を実現する。
- 参考スコア(独自算出の注目度): 13.529896365435286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models have demonstrated powerful cross-modal understanding and reasoning capabilities in general domains. However, in the electromagnetic (EM) domain, they still face challenges such as data scarcity and insufficient integration of domain knowledge. This paper proposes PReD, the first foundation model for the EM domain that covers the intelligent closed-loop of "perception, recognition, decision-making." We constructed a high-quality multitask EM dataset, PReD-1.3M, and an evaluation benchmark, PReD-Bench. The dataset encompasses multi-perspective representations such as raw time-domain waveform, frequency-domain spectrograms, and constellation diagrams, covering typical features of communication and radar signals. It supports a range of core tasks, including signal detection, modulation recognition, parameter estimation, protocol recognition, radio frequency fingerprint recognition, and anti-jamming decision-making. PReD adopts a multi-stage training strategy that unifies multiple tasks for EM signals. It achieves closed-loop optimization from end-to-end signal understanding to language-driven reasoning and decision-making, significantly enhancing EM domain expertise while maintaining general multimodal capabilities. Experimental results show that PReD achieves state-of-the-art performance on PReD-Bench constructed from both open-source and self-collected signal datasets. These results collectively validate the feasibility and potential of vision-aligned foundation models in advancing the understanding and reasoning of EM signals.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、汎用ドメインにおいて強力なクロスモーダル理解と推論能力を示している。
しかし、電磁(EM)領域では、データ不足やドメイン知識の不十分な統合といった課題に直面している。
本稿では,「知覚,認識,意思決定」の知的閉ループをカバーする,EMドメインの最初の基礎モデルであるPReDを提案する。
高品質なマルチタスクEMデータセットPReD-1.3Mと評価ベンチマークPReD-Benchを構築した。
このデータセットは、生時間領域波形、周波数領域分光図、星座図などの多視点表現を含み、通信やレーダー信号の典型的な特徴を網羅している。
信号検出、変調認識、パラメータ推定、プロトコル認識、無線周波数指紋認識、アンチジャミング決定など、さまざまなコアタスクをサポートする。
PReDは、EM信号のための複数のタスクを統合するマルチステージトレーニング戦略を採用している。
エンドツーエンドの信号理解から言語駆動推論、意思決定に至るまでのクローズドループ最適化を実現し、汎用マルチモーダル機能を維持しながら、EMドメインの専門知識を大幅に向上させる。
実験結果から,PReDはPReD-Bench上で,オープンソースの信号データセットと自己コンパイル信号データセットの両方から構築された最先端性能を実現することがわかった。
これらの結果は、EM信号の理解と推論を進める上でのビジョン整合基盤モデルの有効性と可能性を総合的に検証する。
関連論文リスト
- WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - RadioDiff-Loc: Diffusion Model Enhanced Scattering Congnition for NLoS Localization with Sparse Radio Map Estimation [24.71314779247058]
本稿では条件拡散モデルに基づくNLoSローカライゼーションのための新しい生成推論フレームワークを提案する。
回折された電磁エネルギーが建物縁付近に集中する物理的知見を活用することにより,サンプリング戦略を開発する。
我々は、最大観測強度に対して全サンプルRSS値を正規化し、パワー不変の無線マップの構築を可能にした。
論文 参考訳(メタデータ) (2025-09-02T01:43:23Z) - EMind: A Foundation Model for Multi-task Electromagnetic Signals Understanding [13.118523730875383]
EMindは電磁信号基礎モデルであり、大規模な事前訓練とこの変調のユニークな性質を橋渡しする。
我々は、複数の信号タイプとタスクをカバーする最初の統一かつ最大の電磁信号データセットを構築した。
EMindは、タスク固有のモデルから電磁的インテリジェンスのための統一されたフレームワークへと決定的に移行し、多くの下流タスクで強力なパフォーマンスと広範な一般化を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:11:57Z) - RadioDiff-$k^2$: Helmholtz Equation Informed Generative Diffusion Model for Multi-Path Aware Radio Map Construction [76.24833675757033]
物理インフォームド・ジェネレーティブ・ラーニング・アプローチであるRadioDiff-$k2$を提案する。
提案するRadioDiff-$k2$フレームワークは,画像レベルのRM構成とローカライズタスクの両方において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2025-04-22T06:28:13Z) - MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。
また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文 参考訳(メタデータ) (2025-04-03T05:23:08Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multi-task Learning for Radar Signal Characterisation [48.265859815346985]
本稿では,マルチタスク学習(MTL)問題として,レーダ信号の分類と特徴化に取り組むためのアプローチを提案する。
本稿では,複数のレグレッションタスクと分類タスクを同時最適化するIQST(IQ Signal Transformer)を提案する。
合成レーダデータセット上で提案したMTLモデルの性能を示すとともに,レーダ信号の特徴付けのための一級ベンチマークも提供する。
論文 参考訳(メタデータ) (2023-06-19T12:01:28Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Multi-task Learning Approach for Modulation and Wireless Signal
Classification for 5G and Beyond: Edge Deployment via Model Compression [1.218340575383456]
将来的な通信網は、異種無線デバイスの成長に対応するために、少ないスペクトルに対処する必要がある。
我々は、深層ニューラルネットワークに基づくマルチタスク学習フレームワークの可能性を利用して、変調と信号分類タスクを同時に学習する。
公共利用のための包括的ヘテロジニアス無線信号データセットを提供する。
論文 参考訳(メタデータ) (2022-02-26T14:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。