Fugu-MT 論文翻訳(概要): MMSense: Adapting Vision-based Foundation Model for Multi-task Multi-modal Wireless Sensing

論文の概要: MMSense: Adapting Vision-based Foundation Model for Multi-task Multi-modal Wireless Sensing

arxiv url: http://arxiv.org/abs/2511.12305v1
Date: Sat, 15 Nov 2025 17:35:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:23.878305
Title: MMSense: Adapting Vision-based Foundation Model for Multi-task Multi-modal Wireless Sensing
Title（参考訳）: MMSense:マルチタスクマルチモーダル無線センシングのためのビジョンベース基礎モデル
Authors: Zhizhen Li, Xuanhao Luo, Xueren Ge, Longyu Zhou, Xingqin Lin, Yuchen Liu,
Abstract要約: MMSenseは統合無線センシングのためのマルチモーダル・マルチタスク基礎モデルである。我々のフレームワークは、画像、レーダー、LiDAR、テキストデータを視覚に適合する表現に変換することで統合する。モダリティゲーティング・メカ・ニムはこれらの表現を適応的に融合させ、視覚ベースの大きな言語モデルバックボーンは特徴整合化を可能にする。
参考スコア（独自算出の注目度）: 7.577654996150275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large AI models have been widely adopted in wireless communications for channel modeling, beamforming, and resource optimization. However, most existing efforts remain limited to single-modality inputs and channel-specific objec- tives, overlooking the broader potential of large foundation models for unified wireless sensing. To bridge this gap, we propose MMSense, a multi-modal, multi-task foundation model that jointly addresses channel-centric, environment-aware, and human-centered sensing. Our framework integrates image, radar, LiDAR, and textual data by transforming them into vision- compatible representations, enabling effective cross-modal align- ment within a unified feature space. A modality gating mecha- nism adaptively fuses these representations, while a vision-based large language model backbone enables unified feature align- ment and instruction-driven task adaptation. Furthermore, task- specific sequential attention and uncertainty-based loss weighting mechanisms enhance cross-task generalization. Experiments on real wireless scenario datasets show that our approach outper- forms both task-specific and large-model baselines, confirming its strong generalization across heterogeneous sensing tasks.
Abstract（参考訳）: 大型AIモデルは、チャネルモデリング、ビームフォーミング、リソース最適化のための無線通信に広く採用されている。しかし、既存のほとんどの取り組みは単一モード入力とチャネル固有のオブジェクティブに限られており、統合された無線センシングのための大きな基礎モデルの可能性を見越している。このギャップを埋めるために、チャネル中心、環境認識、人間中心のセンシングを共同で扱うマルチモーダル・マルチタスク基盤モデルであるMMSenseを提案する。我々のフレームワークは、画像、レーダ、LiDAR、テキストデータを視覚に適合した表現に変換することで統合し、統合された特徴空間内で効果的なクロスモーダルアライメントを実現する。モダリティゲーティング・メカ・ニムはこれらの表現を適応的に融合させ、一方ビジョンベースの大規模言語モデルバックボーンは、特徴整合と命令駆動タスク適応を可能にする。さらに、タスク固有のシーケンシャルな注意と不確実性に基づく損失重み付け機構により、クロスタスクの一般化が促進される。実際の無線シナリオデータセットを用いた実験により、我々のアプローチはタスク固有のベースラインと大規模モデルベースラインの両方を上回り、不均一なセンシングタスクをまたいだ強力な一般化を確認した。

関連論文リスト

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文参考訳（メタデータ） (2025-09-27T19:43:04Z)
Towards a Foundation Model for Communication Systems [16.85529517183343]
本研究では,コミュニケーションデータの基礎モデルに向けて一歩踏み出した。本稿では,トークン化,位置埋め込み,マルチモーダリティ,可変特徴量,正規化など,重要な課題に対処する手法を提案する。本研究では,送信ランク,選択したプリコーダ,ドップラー拡散,遅延プロファイルなど,複数の特徴を推定できることを実証的に実証する。
論文参考訳（メタデータ） (2025-05-20T16:52:11Z)
A Multi-Task Foundation Model for Wireless Channel Representation Using Contrastive and Masked Autoencoder Learning [19.277001743060435]
ContraWiMAEは、トランスフォーマーベースの基礎モデルであり、無線チャネル表現のためのマスク付き再構成とマスク付きコントラスト学習を統一する。私たちの重要なイノベーションは、ノイズ、フェーディング、部分的な可観測性など、ワイヤレス環境の固有の特性を自然な拡張として活用する、新しいワイヤレスインスパイアされたコントラストの目標です。
論文参考訳（メタデータ） (2025-05-14T05:45:22Z)
Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。 MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文参考訳（メタデータ） (2024-03-24T15:10:22Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)
Multi-task Learning Approach for Modulation and Wireless Signal Classification for 5G and Beyond: Edge Deployment via Model Compression [1.218340575383456]
将来的な通信網は、異種無線デバイスの成長に対応するために、少ないスペクトルに対処する必要がある。我々は、深層ニューラルネットワークに基づくマルチタスク学習フレームワークの可能性を利用して、変調と信号分類タスクを同時に学習する。公共利用のための包括的ヘテロジニアス無線信号データセットを提供する。
論文参考訳（メタデータ） (2022-02-26T14:51:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。