論文の概要: Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction
- arxiv url: http://arxiv.org/abs/2412.09507v1
- Date: Thu, 12 Dec 2024 17:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 17:02:07.701376
- Title: Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction
- Title(参考訳): 効率的な屋内パストラス無線地図予測のための視覚変換器
- Authors: Edvard Ghukasyan, Hrant Khachatrian, Rafayel Mkrtchyan, Theofanis P. Raptis,
- Abstract要約: ビジョントランスフォーマー(ViT)は、様々な画像ベースのタスクで最先端のパフォーマンスを達成するのに顕著な成功を収めている。
本研究では,VTをベースとしたニューラルネットワークを用いて,屋内パスロス電波地図の予測問題に対処する。
- 参考スコア(独自算出の注目度): 4.097291451674696
- License:
- Abstract: Vision Transformers (ViTs) have demonstrated remarkable success in achieving state-of-the-art performance across various image-based tasks and beyond. In this study, we employ a ViT-based neural network to address the problem of indoor pathloss radio map prediction. The network's generalization ability is evaluated across diverse settings, including unseen buildings, frequencies, and antennas with varying radiation patterns. By leveraging extensive data augmentation techniques and pretrained DINOv2 weights, we achieve promising results, even under the most challenging scenarios.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、様々な画像ベースタスクやそれ以上のタスクで最先端のパフォーマンスを達成する上で、顕著な成功を収めている。
本研究では,VTをベースとしたニューラルネットワークを用いて,屋内パスロス無線地図の予測問題に対処する。
ネットワークの一般化能力は、見えない建物、周波数、様々な放射パターンを持つアンテナなど、様々な設定で評価される。
膨大なデータ拡張技術と事前訓練されたDINOv2重みを利用することで、最も困難なシナリオの下でも有望な結果が得られる。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Illicit object detection in X-ray images using Vision Transformers [6.728794938150435]
Illicitオブジェクト検出は、さまざまな高セキュリティ場所で実施される重要なタスクである。
本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。
論文 参考訳(メタデータ) (2024-03-27T22:36:02Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Multimodal Transformers for Wireless Communications: A Case Study in
Beam Prediction [7.727175654790777]
センシング支援ビーム予測のためのマルチモーダルトランスフォーマー深層学習フレームワークを提案する。
我々は畳み込みニューラルネットワークを用いて、時間とともにサンプリングされた画像、点雲、レーダー生データから特徴を抽出する。
実験結果から、画像とGPSデータに基づいてトレーニングしたソリューションは、予測されたビームの最高の距離ベース精度を78.44%に向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-21T06:29:38Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Recent Advances in Vision Transformer: A Survey and Outlook of Recent
Work [1.6317061277457001]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々な視覚タスクにおいて、より人気があり支配的な技術になりつつある。
コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。
一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-03T06:17:03Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。