論文の概要: Applying Deep-Learning-Based Computer Vision to Wireless Communications:
Methodologies, Opportunities, and Challenges
- arxiv url: http://arxiv.org/abs/2006.05782v4
- Date: Wed, 2 Dec 2020 12:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:24:52.405462
- Title: Applying Deep-Learning-Based Computer Vision to Wireless Communications:
Methodologies, Opportunities, and Challenges
- Title(参考訳): 深層学習型コンピュータビジョンを無線通信に適用する:方法論,機会,課題
- Authors: Yu Tian and Gaofeng Pan and Mohamed-Slim Alouini
- Abstract要約: ディープラーニング(DL)はコンピュータビジョン(CV)分野で大きな成功を収めている。
本稿では,無線通信におけるDLベースのCVの適用について紹介する。
- 参考スコア(独自算出の注目度): 100.45137961106069
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning (DL) has seen great success in the computer vision (CV) field,
and related techniques have been used in security, healthcare, remote sensing,
and many other fields. As a parallel development, visual data has become
universal in daily life, easily generated by ubiquitous low-cost cameras.
Therefore, exploring DL-based CV may yield useful information about objects,
such as their number, locations, distribution, motion, etc. Intuitively,
DL-based CV can also facilitate and improve the designs of wireless
communications, especially in dynamic network scenarios. However, so far, such
work is rare in the literature. The primary purpose of this article, then, is
to introduce ideas about applying DL-based CV in wireless communications to
bring some novel degrees of freedom to both theoretical research and
engineering applications. To illustrate how DL-based CV can be applied in
wireless communications, an example of using a DL-based CV with a
millimeter-wave (mmWave) system is given to realize optimal mmWave
multiple-input and multiple-output (MIMO) beamforming in mobile scenarios. In
this example, we propose a framework to predict future beam indices from
previously observed beam indices and images of street views using ResNet,
3-dimensional ResNext, and a long short-term memory network. The experimental
results show that our frameworks achieve much higher accuracy than the baseline
method, and that visual data can significantly improve the performance of the
MIMO beamforming system. Finally, we discuss the opportunities and challenges
of applying DL-based CV in wireless communications.
- Abstract(参考訳): 深層学習(DL)はコンピュータビジョン(CV)分野で大きな成功を収めており、関連する技術はセキュリティ、医療、リモートセンシングなど多くの分野で使用されている。
並列開発として、ユビキタスローコストカメラによって容易に生成される視覚データが日常的に普遍化されている。
したがって、DLベースのCVを探索すると、その数、位置、分布、動きなど、オブジェクトに関する有用な情報が得られる。
直感的には、DLベースのCVは、特に動的ネットワークシナリオにおいて、無線通信の設計を容易にし、改善することができる。
しかし、これまでの文献ではそのような作品は稀である。
本稿の主な目的は,無線通信にDLベースのCVを適用し,理論研究と工学応用の両方に新たな自由度をもたらすというアイデアを導入することである。
無線通信における DL ベースの CV の適用方法を説明するために,ミリ波 (mmWave) システムを用いた DL ベースの CV を用いて,モバイルシナリオにおける最適 mmWave マルチインプットおよびマルチアウトプット (MIMO) ビームフォーミングを実現する。
本稿では,ResNet,3次元ResNext,長期記憶ネットワークを用いて,以前に観測されたビーム指標とストリートビューの画像から将来のビーム指標を予測するフレームワークを提案する。
実験の結果,我々のフレームワークはベースライン法よりもはるかに精度が高く,視覚データによりMIMOビームフォーミングシステムの性能が大幅に向上することが示された。
最後に,無線通信におけるDLベースのCVの適用の機会と課題について論じる。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - VOMTC: Vision Objects for Millimeter and Terahertz Communications [29.670122146586614]
ミリ・テラヘルツ通信(VOMTC)のための視覚オブジェクトと呼ばれる大規模視覚データセットを提案する。
VOMTCデータセットは、ベースステーション(BS)に取り付けられたカメラから得られた20,232対のRGBと奥行き画像からなる。
VOMTC訓練対象検出器を用いたビームフォーミング技術は,従来のビームフォーミング技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-09-14T06:18:51Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Multi-task Learning Approach for Modulation and Wireless Signal
Classification for 5G and Beyond: Edge Deployment via Model Compression [1.218340575383456]
将来的な通信網は、異種無線デバイスの成長に対応するために、少ないスペクトルに対処する必要がある。
我々は、深層ニューラルネットワークに基づくマルチタスク学習フレームワークの可能性を利用して、変調と信号分類タスクを同時に学習する。
公共利用のための包括的ヘテロジニアス無線信号データセットを提供する。
論文 参考訳(メタデータ) (2022-02-26T14:51:02Z) - Wireless for Machine Learning [91.13476340719087]
我々は、分散データセット上で機械学習サービスをサポートするように設計された最先端のワイヤレス手法について、徹底的にレビューする。
文献にはアナログ・オーバー・ザ・エア計算とMLに最適化されたデジタル無線リソース管理という2つの明確なテーマがある。
このサーベイは、これらのメソッドを包括的に紹介し、最も重要な研究をレビューし、オープンな問題を強調し、アプリケーションのシナリオについて議論する。
論文 参考訳(メタデータ) (2020-08-31T11:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。