論文の概要: BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10432v1
- Date: Thu, 13 Mar 2025 14:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.725229
- Title: BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models
- Title(参考訳): BeamLLM:大規模言語モデルを用いたビジョン駆動型ミリ波ビーム予測
- Authors: Can Zheng, Jiguang He, Guofa Cai, Zitong Yu, Chung G. Kang,
- Abstract要約: BeamLLMは、大規模言語モデル(LLM)を利用した視覚支援ミリ波(mmWave)ビーム予測フレームワークである
現実的な車内構造(V2I)のシナリオに基づいて,提案手法は61.01%のTop-1精度と97.39%のTop-3精度を標準予測タスクで達成する。
数ショットの予測シナリオでは、パフォーマンス劣化はタイムサンプル1から10までの12.56%(トップ-1)と5.55%(トップ-3)に制限され、優れた予測能力を示す。
- 参考スコア(独自算出の注目度): 22.11810939970069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose BeamLLM, a vision-aided millimeter-wave (mmWave) beam prediction framework leveraging large language models (LLMs) to address the challenges of high training overhead and latency in mmWave communication systems. By combining computer vision (CV) with LLMs' cross-modal reasoning capabilities, the framework extracts user equipment (UE) positional features from RGB images and aligns visual-temporal features with LLMs' semantic space through reprogramming techniques. Evaluated on a realistic vehicle-to-infrastructure (V2I) scenario, the proposed method achieves 61.01% top-1 accuracy and 97.39% top-3 accuracy in standard prediction tasks, significantly outperforming traditional deep learning models. In few-shot prediction scenarios, the performance degradation is limited to 12.56% (top-1) and 5.55% (top-3) from time sample 1 to 10, demonstrating superior prediction capability.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を活用した視線支援ミリ波(mmWave)ビーム予測フレームワークであるBeamLLMを提案する。
コンピュータビジョン(CV)とLLMのクロスモーダル推論機能を組み合わせることで、RGB画像からユーザ機器(UE)の位置特徴を抽出し、再プログラミング技術によりLLMのセマンティック空間と視覚的時間的特徴を整合させる。
現実的なV2Iシナリオに基づいて,提案手法は標準予測タスクにおいて61.01%のトップ1精度と97.39%のトップ3精度を達成し,従来のディープラーニングモデルよりも大幅に優れていた。
数ショットの予測シナリオでは、パフォーマンス劣化はタイムサンプル1から10までの12.56%(トップ-1)と5.55%(トップ-3)に制限され、優れた予測能力を示す。
関連論文リスト
- Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。
提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文 参考訳(メタデータ) (2025-04-02T20:33:27Z) - Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs [11.1036247482657]
本稿では,SMETimesについて述べる。SMETimesは,3B以下のパラメータのSLMを,効率的かつ正確な時系列予測を行うための最初の体系的な研究である。
統計的特徴によって数値時系列をテキスト意味論でブリッジする統計的に強化されたプロンプト機構; 学習可能なパラメータを通して時間パターンと言語モデルトークン空間を整列する適応型融合埋め込みアーキテクチャ。
論文 参考訳(メタデータ) (2025-03-05T15:27:36Z) - Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [63.34626300024294]
TimeXLはプロトタイプベースの時系列エンコーダを統合するマルチモーダル予測フレームワークである。
より正確な予測と解釈可能な説明を生成する。
4つの実世界のデータセットに対する実証的な評価は、TimeXLがAUCで最大8.9%の改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-03-02T20:40:53Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Beam Prediction based on Large Language Models [51.45077318268427]
時系列予測タスクとしてミリ波(mmWave)ビーム予測問題を定式化する。
我々は、歴史的観測をトレーニング可能なトークン化器を用いてテキストベースの表現に変換する。
提案手法はLLMのパワーを利用して将来の最適ビームを予測する。
論文 参考訳(メタデータ) (2024-08-16T12:40:01Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Camera Based mmWave Beam Prediction: Towards Multi-Candidate Real-World
Scenarios [15.287380309115399]
本稿では,実環境におけるV2Iシナリオにおけるセンシング支援ビーム予測問題について広範囲に検討する。
特に,視覚的および位置的データを用いて最適なビーム指標を予測することを提案する。
提案手法は,大規模実世界のDeepSense 6$Gデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-08-14T00:15:01Z) - Interpretable AI-based Large-scale 3D Pathloss Prediction Model for
enabling Emerging Self-Driving Networks [3.710841042000923]
本稿では,新しい鍵予測器を応用した機械学習モデルを提案する。
予測,一般化,計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより,光グラディエントブースティングマシン(LightGBM)アルゴリズムが全体として他のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-01-30T19:50:16Z) - Neural forecasting at scale [8.245069318446415]
本研究では,大規模な時系列集合上での時系列予測のために,アンサンブルに基づくディープニューラルネットワークを効率的にスケーリングする問題について検討する。
我々のモデルは、関連するモデルの実用的限界に対処し、トレーニング時間を半減し、メモリ要件を5。
論文 参考訳(メタデータ) (2021-09-20T17:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。