論文の概要: MapViT: A Two-Stage ViT-Based Framework for Real-Time Radio Quality Map Prediction in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2601.15578v1
- Date: Thu, 22 Jan 2026 01:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.466976
- Title: MapViT: A Two-Stage ViT-Based Framework for Real-Time Radio Quality Map Prediction in Dynamic Environments
- Title(参考訳): MapViT - 動的環境におけるリアルタイム無線品質マップ予測のための2段階のViTベースのフレームワーク
- Authors: Cyril Shih-Huan Hsu, Xi Li, Lanfranco Zanzi, Zhiheng Yang, Chrysa Papagianni, Xavier Costa Pérez,
- Abstract要約: 大規模言語モデル(LLM)のための事前学習および微調整パラダイムの成功に触発された2段階ビジョントランスフォーマー(ViT)ベースのフレームワークであるMapViTを紹介する。
このフレームワークは機械学習(ML)モデルの集合を用いて評価し、それぞれの強みと制約を異なるシナリオで分析する。
これによりMapViTは、モバイルロボットのようなエネルギーとリソースに制約のあるプラットフォームのための有望なソリューションとなる。
- 参考スコア(独自算出の注目度): 17.118891396719295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in mobile and wireless networks are unlocking the full potential of robotic autonomy, enabling robots to take advantage of ultra-low latency, high data throughput, and ubiquitous connectivity. However, for robots to navigate and operate seamlessly, efficiently and reliably, they must have an accurate understanding of both their surrounding environment and the quality of radio signals. Achieving this in highly dynamic and ever-changing environments remains a challenging and largely unsolved problem. In this paper, we introduce MapViT, a two-stage Vision Transformer (ViT)-based framework inspired by the success of pre-train and fine-tune paradigm for Large Language Models (LLMs). MapViT is designed to predict both environmental changes and expected radio signal quality. We evaluate the framework using a set of representative Machine Learning (ML) models, analyzing their respective strengths and limitations across different scenarios. Experimental results demonstrate that the proposed two-stage pipeline enables real-time prediction, with the ViT-based implementation achieving a strong balance between accuracy and computational efficiency. This makes MapViT a promising solution for energy- and resource-constrained platforms such as mobile robots. Moreover, the geometry foundation model derived from the self-supervised pre-training stage improves data efficiency and transferability, enabling effective downstream predictions even with limited labeled data. Overall, this work lays the foundation for next-generation digital twin ecosystems, and it paves the way for a new class of ML foundation models driving multi-modal intelligence in future 6G-enabled systems.
- Abstract(参考訳): モバイルとワイヤレスネットワークの最近の進歩は、ロボット自律性の可能性を最大限に活用し、超低レイテンシ、高いデータスループット、ユビキタス接続をロボットが利用できるようにする。
しかし、ロボットがシームレスに、効率よく、かつ確実に操作するには、周囲の環境と無線信号の品質の両方を正確に理解する必要がある。
非常にダイナミックで絶えず変化する環境でこれを達成することは、難しい問題であり、ほとんど解決されていない。
本稿では,Large Language Models(LLMs)における事前学習および微調整のパラダイムの成功に触発された2段階視覚変換器(ViT)ベースのフレームワークであるMapViTを紹介する。
MapViTは、環境変化と期待される電波品質の両方を予測するように設計されている。
このフレームワークは機械学習(ML)モデルの集合を用いて評価し、それぞれの強みと制約を異なるシナリオで分析する。
実験結果から,提案した2段階パイプラインは,精度と計算効率のバランスの強いViTベースの実装により,リアルタイムな予測を可能にすることが示された。
これによりMapViTは、モバイルロボットのようなエネルギーとリソースに制約のあるプラットフォームのための有望なソリューションとなる。
さらに、自己教師付き事前学習段階から派生した幾何学基礎モデルにより、データ効率と転送性が向上し、ラベル付きデータでも効果的な下流予測が可能となる。
全体として、この研究は次世代のデジタルツインエコシステムの基礎を築き、将来の6G対応システムでマルチモーダルインテリジェンスを駆動するMLファンデーションの新しいクラスの道を開くものだ。
関連論文リスト
- Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - UrbanTwin: Building High-Fidelity Digital Twins for Sim2Real LiDAR Perception and Evaluation [3.1508266388327324]
本チュートリアルでは,高忠実度ディジタルツイン(HiFi DT)を構築するための再現可能なワークフローを導入し,リアルな合成データセットを生成する。
衛星画像やOpenStreetMap,センサ仕様などのオープンソースリソースを用いて,静的な地形,道路インフラストラクチャ,動的トラフィックをモデル化するための実践的な手順を概説する。
結果として得られる環境は、スケーラブルで費用効率のよいデータ生成をサポートし、堅牢なSim2Real学習を実現する。
論文 参考訳(メタデータ) (2025-09-03T00:12:15Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。
mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。
特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文 参考訳(メタデータ) (2025-05-03T06:23:18Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Mapping Wireless Networks into Digital Reality through Joint Vertical and Horizontal Learning [26.54703150478879]
VH-Twinは、無線ネットワークをデジタルリアリティーにマッピングする時系列データ駆動フレームワークである。
V-ツインニングは分散学習技術を利用して、ネットワーククラスタから協調的にグローバルツインモデルを初期化する。
一方、H-ツインニングは、ネットワークや環境の変化に応じて動的に双子のモデルを更新する非同期マッピング方式で実装されている。
論文 参考訳(メタデータ) (2024-04-22T18:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。