論文の概要: A Multi-Modal Foundational Model for Wireless Communication and Sensing
- arxiv url: http://arxiv.org/abs/2602.04016v1
- Date: Tue, 03 Feb 2026 21:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.273758
- Title: A Multi-Modal Foundational Model for Wireless Communication and Sensing
- Title(参考訳): 無線通信・センシングのためのマルチモーダル基礎モデル
- Authors: Vahid Yazdnian, Yasaman Ghasempour,
- Abstract要約: 本研究は,物理層無線システムのタスク非依存・マルチモーダル基礎モデルを提案する。
異質なモダリティにまたがる移動可能で物理学を意識した表現を学習し、タスクや環境をまたいだ堅牢な一般化を可能にしている。
本評価は,タスク固有のベースラインと比較して,より優れた一般化,デプロイメントシフトに対する堅牢性,データ要求の削減を示す。
- 参考スコア(独自算出の注目度): 5.101849923596286
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial intelligence is a key enabler for next-generation wireless communication and sensing. Yet, today's learning-based wireless techniques do not generalize well: most models are task-specific, environment-dependent, and limited to narrow sensing modalities, requiring costly retraining when deployed in new scenarios. This work introduces a task-agnostic, multi-modal foundational model for physical-layer wireless systems that learns transferable, physics-aware representations across heterogeneous modalities, enabling robust generalization across tasks and environments. Our framework employs a physics-guided self-supervised pretraining strategy incorporating a dedicated physical token to capture cross-modal physical correspondences governed by electromagnetic propagation. The learned representations enable efficient adaptation to diverse downstream tasks, including massive multi-antenna optimization, wireless channel estimation, and device localization, using limited labeled data. Our extensive evaluations demonstrate superior generalization, robustness to deployment shifts, and reduced data requirements compared to task-specific baselines.
- Abstract(参考訳): 人工知能は次世代無線通信とセンシングの鍵となる。
しかし、今日の学習ベースの無線技術は、うまく一般化していない。ほとんどのモデルは、タスク固有の、環境に依存し、制限された知覚モーダルに制限され、新しいシナリオにデプロイする際には、コストがかかる。
この研究は、物理層無線システムのためのタスクに依存しないマルチモーダル基礎モデルを導入し、異種モダリティ間の移動可能な物理認識表現を学習し、タスクや環境間の堅牢な一般化を可能にする。
本フレームワークでは,電磁伝搬に支配される相互の物理的対応を捉えるために,専用の物理トークンを組み込んだ物理誘導型自己教師型事前訓練戦略を採用している。
学習された表現は、大量のマルチアンテナ最適化、無線チャネル推定、デバイスローカライゼーションなど、限られたラベル付きデータを用いた多様な下流タスクへの効率的な適応を可能にする。
我々の広範な評価は、タスク固有のベースラインと比較して、より優れた一般化、デプロイメントシフトに対する堅牢性、データ要求の削減を示す。
関連論文リスト
- Optimizing Energy and Data Collection in UAV-aided IoT Networks using Attention-based Multi-Objective Reinforcement Learning [7.900374101465939]
無人航空機(UAV)は、特にデータ収集作業において、無線ネットワークサービスにとってますます重要になっている。
既存のアルゴリズムは限られたトレーニングデータに悩まされており、非常にダイナミックな環境でパフォーマンスを損なう。
本研究では,都市環境におけるデータ収集とエネルギー消費のトレードオフを明示的に扱う多目的強化学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-01-20T15:55:11Z) - MMSense: Adapting Vision-based Foundation Model for Multi-task Multi-modal Wireless Sensing [7.577654996150275]
MMSenseは統合無線センシングのためのマルチモーダル・マルチタスク基礎モデルである。
我々のフレームワークは、画像、レーダー、LiDAR、テキストデータを視覚に適合する表現に変換することで統合する。
モダリティゲーティング・メカ・ニムはこれらの表現を適応的に融合させ、視覚ベースの大きな言語モデルバックボーンは特徴整合化を可能にする。
論文 参考訳(メタデータ) (2025-11-15T17:35:39Z) - Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-09-27T19:43:04Z) - A Wireless Foundation Model for Multi-Task Prediction [50.21098141769079]
多様な予測区間をサポートする無線ネットワークにおけるマルチタスク予測のための統合基盤モデルを提案する。
大規模データセットをトレーニングした後、提案した基礎モデルは、新しいタスクにおいて、目に見えないシナリオとゼロショットのパフォーマンスに強力な一般化を示す。
論文 参考訳(メタデータ) (2025-07-08T12:37:55Z) - WirelessGPT: A Generative Pre-trained Multi-task Learning Framework for Wireless Communication [11.9521391877271]
本稿では,無線通信およびセンシングにおけるマルチタスク学習のための先駆的基礎モデルである WirelessGPT を紹介する。
初期パラメータサイズは約8000万で、従来のメソッドやより小さなAIモデルよりも大幅に改善されている。
WirelessGPTは、さまざまなドメインにわたる多様なタスクをサポートする最初の基礎モデルとして、新しいベンチマークを確立している。
論文 参考訳(メタデータ) (2025-02-08T12:38:56Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Pervasive Machine Learning for Smart Radio Environments Enabled by
Reconfigurable Intelligent Surfaces [56.35676570414731]
Reconfigurable Intelligent Surfaces(RIS)の新たな技術は、スマート無線環境の実現手段として準備されている。
RISは、無線媒体上の電磁信号の伝搬を動的に制御するための、高度にスケーラブルで低コストで、ハードウェア効率が高く、ほぼエネルギーニュートラルなソリューションを提供する。
このような再構成可能な無線環境におけるRISの密配置に関する大きな課題の1つは、複数の準曲面の効率的な構成である。
論文 参考訳(メタデータ) (2022-05-08T06:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。