論文の概要: Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction
- arxiv url: http://arxiv.org/abs/2412.09507v1
- Date: Thu, 12 Dec 2024 17:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:57.200049
- Title: Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction
- Title(参考訳): 効率的な屋内パストラス無線地図予測のための視覚変換器
- Authors: Edvard Ghukasyan, Hrant Khachatrian, Rafayel Mkrtchyan, Theofanis P. Raptis,
- Abstract要約: ビジョントランスフォーマー(ViT)は、様々な画像ベースのタスクで最先端のパフォーマンスを達成するのに顕著な成功を収めている。
本研究では,VTをベースとしたニューラルネットワークを用いて,屋内パスロス電波地図の予測問題に対処する。
- 参考スコア(独自算出の注目度): 4.097291451674696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have demonstrated remarkable success in achieving state-of-the-art performance across various image-based tasks and beyond. In this study, we employ a ViT-based neural network to address the problem of indoor pathloss radio map prediction. The network's generalization ability is evaluated across diverse settings, including unseen buildings, frequencies, and antennas with varying radiation patterns. By leveraging extensive data augmentation techniques and pretrained DINOv2 weights, we achieve promising results, even under the most challenging scenarios.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、様々な画像ベースタスクやそれ以上のタスクで最先端のパフォーマンスを達成する上で、顕著な成功を収めている。
本研究では,VTをベースとしたニューラルネットワークを用いて,屋内パスロス無線地図の予測問題に対処する。
ネットワークの一般化能力は、見えない建物、周波数、様々な放射パターンを持つアンテナなど、様々な設定で評価される。
膨大なデータ拡張技術と事前訓練されたDINOv2重みを利用することで、最も困難なシナリオの下でも有望な結果が得られる。
関連論文リスト
- Unified Linear Parametric Map Modeling and Perception-aware Trajectory Planning for Mobile Robotics [1.7495208770207367]
本稿では,高次元空間にデータをマッピングする軽量な線形パラメトリックマップを提案する。
UAVでは,Euclidean Signed Distance Field (ESDF) マップを用いた。
UGVでは、モデルは地形を特徴づけ、クローズドフォーム勾配を提供し、オンラインプランニングによって大きな穴を回避できる。
論文 参考訳(メタデータ) (2025-07-12T16:39:19Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models [16.522696273752835]
地球観測は、環境変化の監視、災害への対応、天然資源の管理に不可欠である。
基礎モデルにより、リモートセンシング画像解析により、関係する地理情報を正確かつ効率的に取得することができる。
これらのモデルのサイズが大きくなるにつれて、関連する計算資源とコストのために微調整がますます困難になる。
論文 参考訳(メタデータ) (2025-04-24T09:37:02Z) - DRL-based Dolph-Tschebyscheff Beamforming in Downlink Transmission for Mobile Users [52.9870460238443]
学習可能なDolph-Tschebyscheffアンテナアレイを用いた深部強化学習に基づくブラインドビームフォーミング手法を提案する。
シミュレーションの結果,提案手法は最良値に非常に近いデータレートをサポートできることが示唆された。
論文 参考訳(メタデータ) (2025-02-03T11:50:43Z) - Generalizing Motion Planners with Mixture of Experts for Autonomous Driving [38.02032312602382]
State Transformer-2は拡張性のあるデコーダのみのモーションプランナで、ViTエンコーダとMoE(Mix-of-experts)因果トランスフォーマーアーキテクチャを使用している。
我々は、ViTエンコーダとMix-of-experts(MoE)因果変換アーキテクチャを用いたスケーラブルでデコーダのみのモーションプランナであるStateTransformer-2(STR2)を紹介する。
論文 参考訳(メタデータ) (2024-10-21T08:36:25Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Machine Learning-Based Path Loss Modeling with Simplified Features [0.0]
Obstacle depthは、無線信号の伝搬を予測するための、合理化されているが驚くほど正確な方法を提供する。
本稿では,環境情報を用いた予測手法を提案する。
論文 参考訳(メタデータ) (2024-05-16T11:46:39Z) - Illicit object detection in X-ray images using Vision Transformers [6.728794938150435]
Illicitオブジェクト検出は、さまざまな高セキュリティ場所で実施される重要なタスクである。
本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。
論文 参考訳(メタデータ) (2024-03-27T22:36:02Z) - Path Planning based on 2D Object Bounding-box [8.082514573754954]
都会の運転シナリオにおける模倣学習を通じて開発された物体の2次元境界ボックスを利用する経路計画法を提案する。
これは、高精細(HD)マップデータと周囲のカメラが捉えた画像を統合することで実現される。
我々は, nuPlan計画課題におけるモデルの評価を行い, 既存のビジョン中心の手法と比較して, 競争力があることを示した。
論文 参考訳(メタデータ) (2024-02-22T19:34:56Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Multimodal Transformers for Wireless Communications: A Case Study in
Beam Prediction [7.727175654790777]
センシング支援ビーム予測のためのマルチモーダルトランスフォーマー深層学習フレームワークを提案する。
我々は畳み込みニューラルネットワークを用いて、時間とともにサンプリングされた画像、点雲、レーダー生データから特徴を抽出する。
実験結果から、画像とGPSデータに基づいてトレーニングしたソリューションは、予測されたビームの最高の距離ベース精度を78.44%に向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-21T06:29:38Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Recent Advances in Vision Transformer: A Survey and Outlook of Recent
Work [1.6317061277457001]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々な視覚タスクにおいて、より人気があり支配的な技術になりつつある。
コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。
一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-03T06:17:03Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Dynamically Grown Generative Adversarial Networks [111.43128389995341]
本稿では、ネットワークアーキテクチャとそのパラメータを自動化とともに最適化し、トレーニング中にGANを動的に成長させる手法を提案する。
本手法はアーキテクチャ探索手法を勾配に基づく訓練とインターリーブステップとして組み込んで,ジェネレータと識別器の最適アーキテクチャ成長戦略を定期的に探究する。
論文 参考訳(メタデータ) (2021-06-16T01:25:51Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。