Fugu-MT 論文翻訳(概要): Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction

論文の概要: Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction

arxiv url: http://arxiv.org/abs/2412.09507v2
Date: Thu, 08 May 2025 10:03:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 15:15:32.425761
Title: Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction
Title（参考訳）: 効率的な屋内パストラス無線地図予測のための視覚変換器
Authors: Rafayel Mkrtchyan, Edvard Ghukasyan, Khoren Petrosyan, Hrant Khachatrian, Theofanis P. Raptis,
Abstract要約: 本稿では,DINO-v2事前学習重み付き視覚変換器(ViT)アーキテクチャを用いた深層学習による屋内無線伝搬のモデル化を提案する。本手法は,室内のパスロスマップを生成するために壁面の付加的な特徴を持つフロアマップを処理する。
参考スコア（独自算出の注目度）: 3.8190864550169827
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Indoor pathloss prediction is a fundamental task in wireless network planning, yet it remains challenging due to environmental complexity and data scarcity. In this work, we propose a deep learning-based approach utilizing a vision transformer (ViT) architecture with DINO-v2 pretrained weights to model indoor radio propagation. Our method processes a floor map with additional features of the walls to generate indoor pathloss maps. We systematically evaluate the effects of architectural choices, data augmentation strategies, and feature engineering techniques. Our findings indicate that extensive augmentation significantly improves generalization, while feature engineering is crucial in low-data regimes. Through comprehensive experiments, we demonstrate the robustness of our model across different generalization scenarios.
Abstract（参考訳）: 屋内パスロス予測は、無線ネットワーク計画における基本的な課題であるが、環境の複雑さとデータ不足のため、依然として困難である。本研究では,DINO-v2事前学習重み付き視覚変換器(ViT)アーキテクチャを用いた深層学習方式を提案する。本手法は,室内のパスロスマップを生成するために壁面の付加的な特徴を持つフロアマップを処理する。アーキテクチャ選択,データ拡張戦略,機能工学的手法の効果を体系的に評価する。以上の結果から,機能工学は低データ体制において極めて重要である一方で,広範な拡張が一般化を著しく改善することが明らかとなった。包括的実験を通じて、異なる一般化シナリオにおけるモデルの堅牢性を示す。

関連論文リスト

MapViT: A Two-Stage ViT-Based Framework for Real-Time Radio Quality Map Prediction in Dynamic Environments [17.118891396719295]
大規模言語モデル(LLM)のための事前学習および微調整パラダイムの成功に触発された2段階ビジョントランスフォーマー(ViT)ベースのフレームワークであるMapViTを紹介する。このフレームワークは機械学習(ML)モデルの集合を用いて評価し、それぞれの強みと制約を異なるシナリオで分析する。これによりMapViTは、モバイルロボットのようなエネルギーとリソースに制約のあるプラットフォームのための有望なソリューションとなる。
論文参考訳（メタデータ） (2026-01-22T01:57:48Z)
Traj-Transformer: Diffusion Models with Transformer for GPS Trajectory Generation [15.689474391811734]
本稿では,条件情報埋め込みと雑音予測の両方にトランスフォーマバックボーンを用いた新しいモデルであるトラジェクトリ・トランスフォーマーを提案する。 2つの実世界のデータセットの実験により、トレイトランスフォーマーは生成品質を大幅に向上し、以前のアプローチで見られた問題を効果的に緩和することを示した。
論文参考訳（メタデータ） (2025-10-07T05:41:09Z)
Unified Linear Parametric Map Modeling and Perception-aware Trajectory Planning for Mobile Robotics [1.7495208770207367]
本稿では,高次元空間にデータをマッピングする軽量な線形パラメトリックマップを提案する。 UAVでは,Euclidean Signed Distance Field (ESDF) マップを用いた。 UGVでは、モデルは地形を特徴づけ、クローズドフォーム勾配を提供し、オンラインプランニングによって大きな穴を回避できる。
論文参考訳（メタデータ） (2025-07-12T16:39:19Z)
World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文参考訳（メタデータ） (2025-05-31T06:43:00Z)
Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models [16.522696273752835]
地球観測は、環境変化の監視、災害への対応、天然資源の管理に不可欠である。基礎モデルにより、リモートセンシング画像解析により、関係する地理情報を正確かつ効率的に取得することができる。これらのモデルのサイズが大きくなるにつれて、関連する計算資源とコストのために微調整がますます困難になる。
論文参考訳（メタデータ） (2025-04-24T09:37:02Z)
DRL-based Dolph-Tschebyscheff Beamforming in Downlink Transmission for Mobile Users [52.9870460238443]
学習可能なDolph-Tschebyscheffアンテナアレイを用いた深部強化学習に基づくブラインドビームフォーミング手法を提案する。シミュレーションの結果,提案手法は最良値に非常に近いデータレートをサポートできることが示唆された。
論文参考訳（メタデータ） (2025-02-03T11:50:43Z)
Generalizing Motion Planners with Mixture of Experts for Autonomous Driving [38.02032312602382]
State Transformer-2は拡張性のあるデコーダのみのモーションプランナで、ViTエンコーダとMoE(Mix-of-experts)因果トランスフォーマーアーキテクチャを使用している。我々は、ViTエンコーダとMix-of-experts(MoE)因果変換アーキテクチャを用いたスケーラブルでデコーダのみのモーションプランナであるStateTransformer-2(STR2)を紹介する。
論文参考訳（メタデータ） (2024-10-21T08:36:25Z)
Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。 UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文参考訳（メタデータ） (2024-10-09T22:25:50Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Machine Learning-Based Path Loss Modeling with Simplified Features [0.0]
Obstacle depthは、無線信号の伝搬を予測するための、合理化されているが驚くほど正確な方法を提供する。本稿では,環境情報を用いた予測手法を提案する。
論文参考訳（メタデータ） (2024-05-16T11:46:39Z)
Illicit object detection in X-ray images using Vision Transformers [6.728794938150435]
Illicitオブジェクト検出は、さまざまな高セキュリティ場所で実施される重要なタスクである。本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。
論文参考訳（メタデータ） (2024-03-27T22:36:02Z)
Path Planning based on 2D Object Bounding-box [8.082514573754954]
都会の運転シナリオにおける模倣学習を通じて開発された物体の2次元境界ボックスを利用する経路計画法を提案する。これは、高精細(HD)マップデータと周囲のカメラが捉えた画像を統合することで実現される。我々は, nuPlan計画課題におけるモデルの評価を行い, 既存のビジョン中心の手法と比較して, 競争力があることを示した。
論文参考訳（メタデータ） (2024-02-22T19:34:56Z)
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文参考訳（メタデータ） (2024-01-16T01:57:24Z)
Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文参考訳（メタデータ） (2024-01-05T18:59:52Z)
ViTs are Everywhere: A Comprehensive Study Showcasing Vision Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。 ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文参考訳（メタデータ） (2023-10-09T12:31:30Z)
PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。 ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文参考訳（メタデータ） (2023-10-06T21:45:05Z)
Multimodal Transformers for Wireless Communications: A Case Study in Beam Prediction [7.727175654790777]
センシング支援ビーム予測のためのマルチモーダルトランスフォーマー深層学習フレームワークを提案する。我々は畳み込みニューラルネットワークを用いて、時間とともにサンプリングされた画像、点雲、レーダー生データから特徴を抽出する。実験結果から、画像とGPSデータに基づいてトレーニングしたソリューションは、予測されたビームの最高の距離ベース精度を78.44%に向上させることがわかった。
論文参考訳（メタデータ） (2023-09-21T06:29:38Z)
Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文参考訳（メタデータ） (2023-09-15T09:18:54Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。 RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。 RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文参考訳（メタデータ） (2022-04-06T13:38:11Z)
Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。本稿では,画像の高周波成分を直接補うHATを提案する。 HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文参考訳（メタデータ） (2022-04-03T05:16:51Z)
Recent Advances in Vision Transformer: A Survey and Outlook of Recent Work [1.6317061277457001]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々な視覚タスクにおいて、より人気があり支配的な技術になりつつある。コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。
論文参考訳（メタデータ） (2022-03-03T06:17:03Z)
Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文参考訳（メタデータ） (2021-11-02T03:30:17Z)
Dynamically Grown Generative Adversarial Networks [111.43128389995341]
本稿では、ネットワークアーキテクチャとそのパラメータを自動化とともに最適化し、トレーニング中にGANを動的に成長させる手法を提案する。本手法はアーキテクチャ探索手法を勾配に基づく訓練とインターリーブステップとして組み込んで,ジェネレータと識別器の最適アーキテクチャ成長戦略を定期的に探究する。
論文参考訳（メタデータ） (2021-06-16T01:25:51Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。