論文の概要: Multimodal Wireless Foundation Models
- arxiv url: http://arxiv.org/abs/2511.15162v1
- Date: Wed, 19 Nov 2025 06:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.658808
- Title: Multimodal Wireless Foundation Models
- Title(参考訳): マルチモーダル無線基礎モデル
- Authors: Ahmed Aboulfotouh, Hatem Abou-Zeid,
- Abstract要約: 我々は、生のIQストリームと画像のような無線モダリティの両方を処理できる最初のマルチモーダル無線基盤モデルを構築した。
画像ベース(人間の活動センシング,RF信号分類,5G NR位置決め)とIQベース(RFデバイス指紋認証,干渉検出・分類)の5つの課題を対象としたモデルの評価を行った。
- 参考スコア(独自算出の注目度): 7.397099215417549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wireless foundation models (WFMs) have recently demonstrated promising capabilities, jointly performing multiple wireless functions and adapting effectively to new environments. However, while current WFMs process only one modality, depending on the task and operating conditions, the most informative modality changes and no single modality is best for all tasks. WFMs should therefore be designed to accept multiple modalities to enable a broader and more diverse range of tasks and scenarios. In this work, we propose and build the first multimodal wireless foundation model capable of processing both raw IQ streams and image-like wireless modalities (e.g., spectrograms and CSI) and performing multiple tasks across both. We introduce masked wireless modeling for the multimodal setting, a self-supervised objective and pretraining recipe that learns a joint representation from IQ streams and image-like wireless modalities. We evaluate the model on five tasks across both modality families: image-based (human activity sensing, RF signal classification, 5G NR positioning) and IQ-based (RF device fingerprinting, interference detection/classification). The multimodal WFM is competitive with single-modality WFMs, and in several cases surpasses their performance. Our results demonstrates the strong potential of developing multimodal WFMs that support diverse wireless tasks across different modalities. We believe this provides a concrete step toward both AI-native 6G and the vision of joint sensing, communication, and localization.
- Abstract(参考訳): 無線基礎モデル(WFM)は、複数の無線機能を共同で実行し、新しい環境に効果的に適応する有望な機能を示した。
しかしながら、現在のWFMプロセスはタスクと操作条件によって1つのモーダリティしか処理しないが、最も情報に富むモーダリティは変化し、全てのタスクに最適なモーダリティは存在しない。
したがって、WFMはより広い範囲のタスクやシナリオを可能にするために、複数のモダリティを受け入れるように設計されるべきである。
本研究では、生のIQストリームと画像ライクなワイヤレスモダリティ(例えば、分光器とCSI)の両方を処理し、双方にわたって複数のタスクを実行することができる、最初のマルチモーダル無線基盤モデルを提案し、構築する。
本稿では,マルチモーダル・セッティングのためのマスク付きワイヤレス・モデリング,IQストリームと画像のようなワイヤレス・モダリティから共同表現を学習する自己指導型目標・事前学習のレシピを紹介する。
画像ベース(人間の活動センシング,RF信号分類,5G NR位置決め)とIQベース(RFデバイス指紋認証,干渉検出・分類)の5つの課題を対象としたモデルの評価を行った。
マルチモーダルWFMは単一モダリティWFMと競合し、いくつかのケースでは性能を上回っている。
この結果から,多様な無線タスクをサポートするマルチモーダルWFMの開発の可能性が示唆された。
これにより、AIネイティブな6Gと、ジョイントセンシング、コミュニケーション、ローカライゼーションというビジョンの両方に向けた具体的なステップが提供されると考えています。
関連論文リスト
- MMSense: Adapting Vision-based Foundation Model for Multi-task Multi-modal Wireless Sensing [7.577654996150275]
MMSenseは統合無線センシングのためのマルチモーダル・マルチタスク基礎モデルである。
我々のフレームワークは、画像、レーダー、LiDAR、テキストデータを視覚に適合する表現に変換することで統合する。
モダリティゲーティング・メカ・ニムはこれらの表現を適応的に融合させ、視覚ベースの大きな言語モデルバックボーンは特徴整合化を可能にする。
論文 参考訳(メタデータ) (2025-11-15T17:35:39Z) - Hierarchical Federated Foundation Models over Wireless Networks for Multi-Modal Multi-Task Intelligence: Integration of Edge Learning with D2D/P2P-Enabled Fog Learning Architectures [58.72593025539547]
本稿では,階層型フェデレーション基礎モデル(HF-FM)を提案することで,M3T FFMの探索されていないバリエーションを明らかにする。
HF-FMはM3T FMのモジュール構造を戦略的に整列させ、モダリティエンコーダ、プロンプト、ME(Mixy-of-Experts)、アダプタ、タスクヘッドから構成される。
その可能性を実証するため,無線ネットワーク環境におけるHF-FMの試作と,HF-FMの開発のためのオープンソースコードのリリースを行った。
論文 参考訳(メタデータ) (2025-09-03T20:23:19Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - AI2MMUM: AI-AI Oriented Multi-Modal Universal Model Leveraging Telecom Domain Large Model [8.404195378257178]
本稿では,AI2MMUM(AI2MMUM)の多モードユニバーサルモデルを提案する。
タスク適応性を高めるために、タスク命令は固定されたタスクキーワードと学習可能な暗黙のプレフィックスプロンプトから構成される。
タスク固有の軽量ヘッドは、タスク目標を直接出力するように設計されている。
論文 参考訳(メタデータ) (2025-05-15T06:32:59Z) - 6G WavesFM: A Foundation Model for Sensing, Communication, and Localization [6.70088826174291]
本稿では,無線基礎モデル(WFM)フレームワークについて紹介する。
提案アーキテクチャでは,共有ビジョントランスフォーマー(ViT)バックボーンとタスク固有の多層パーセプトロンヘッドを組み合わせるとともに,パラメータ効率の良い微調整のためのローランド適応(LoRA)を組み込む。
我々は、統一WFMが多様なタスクをサポートし、性能と効率の両方において大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2025-04-18T22:51:35Z) - MMGen: Unified Multi-modal Image Generation and Understanding in One Go [60.97155790727879]
本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。
提案手法は,マルチモーダル出力を柔軟にサポートし,単純なモーダルデカップリング戦略とともに,新しい拡散トランスフォーマを開発する。
論文 参考訳(メタデータ) (2025-03-26T15:37:17Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。