論文の概要: BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10432v1
- Date: Thu, 13 Mar 2025 14:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:44.157676
- Title: BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models
- Title(参考訳): BeamLLM:大規模言語モデルを用いたビジョン駆動型ミリ波ビーム予測
- Authors: Can Zheng, Jiguang He, Guofa Cai, Zitong Yu, Chung G. Kang,
- Abstract要約: BeamLLMは、大規模言語モデル(LLM)を利用した視覚支援ミリ波(mmWave)ビーム予測フレームワークである
現実的な車内構造(V2I)のシナリオに基づいて,提案手法は61.01%のTop-1精度と97.39%のTop-3精度を標準予測タスクで達成する。
数ショットの予測シナリオでは、パフォーマンス劣化はタイムサンプル1から10までの12.56%(トップ-1)と5.55%(トップ-3)に制限され、優れた予測能力を示す。
- 参考スコア(独自算出の注目度): 22.11810939970069
- License:
- Abstract: In this paper, we propose BeamLLM, a vision-aided millimeter-wave (mmWave) beam prediction framework leveraging large language models (LLMs) to address the challenges of high training overhead and latency in mmWave communication systems. By combining computer vision (CV) with LLMs' cross-modal reasoning capabilities, the framework extracts user equipment (UE) positional features from RGB images and aligns visual-temporal features with LLMs' semantic space through reprogramming techniques. Evaluated on a realistic vehicle-to-infrastructure (V2I) scenario, the proposed method achieves 61.01% top-1 accuracy and 97.39% top-3 accuracy in standard prediction tasks, significantly outperforming traditional deep learning models. In few-shot prediction scenarios, the performance degradation is limited to 12.56% (top-1) and 5.55% (top-3) from time sample 1 to 10, demonstrating superior prediction capability.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を活用した視線支援ミリ波(mmWave)ビーム予測フレームワークであるBeamLLMを提案する。
コンピュータビジョン(CV)とLLMのクロスモーダル推論機能を組み合わせることで、RGB画像からユーザ機器(UE)の位置特徴を抽出し、再プログラミング技術によりLLMのセマンティック空間と視覚的時間的特徴を整合させる。
現実的なV2Iシナリオに基づいて,提案手法は標準予測タスクにおいて61.01%のトップ1精度と97.39%のトップ3精度を達成し,従来のディープラーニングモデルよりも大幅に優れていた。
数ショットの予測シナリオでは、パフォーマンス劣化はタイムサンプル1から10までの12.56%(トップ-1)と5.55%(トップ-3)に制限され、優れた予測能力を示す。
関連論文リスト
- VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Beam Prediction based on Large Language Models [51.45077318268427]
時系列予測タスクとしてミリ波(mmWave)ビーム予測問題を定式化する。
我々は、歴史的観測をトレーニング可能なトークン化器を用いてテキストベースの表現に変換する。
提案手法はLLMのパワーを利用して将来の最適ビームを予測する。
論文 参考訳(メタデータ) (2024-08-16T12:40:01Z) - Camera Based mmWave Beam Prediction: Towards Multi-Candidate Real-World
Scenarios [15.287380309115399]
本稿では,実環境におけるV2Iシナリオにおけるセンシング支援ビーム予測問題について広範囲に検討する。
特に,視覚的および位置的データを用いて最適なビーム指標を予測することを提案する。
提案手法は,大規模実世界のDeepSense 6$Gデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-08-14T00:15:01Z) - Interpretable AI-based Large-scale 3D Pathloss Prediction Model for
enabling Emerging Self-Driving Networks [3.710841042000923]
本稿では,新しい鍵予測器を応用した機械学習モデルを提案する。
予測,一般化,計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより,光グラディエントブースティングマシン(LightGBM)アルゴリズムが全体として他のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-01-30T19:50:16Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z) - Neural forecasting at scale [8.245069318446415]
本研究では,大規模な時系列集合上での時系列予測のために,アンサンブルに基づくディープニューラルネットワークを効率的にスケーリングする問題について検討する。
我々のモデルは、関連するモデルの実用的限界に対処し、トレーニング時間を半減し、メモリ要件を5。
論文 参考訳(メタデータ) (2021-09-20T17:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。