Fugu-MT 論文翻訳(概要): BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models

論文の概要: BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models

arxiv url: http://arxiv.org/abs/2503.10432v2
Date: Fri, 27 Jun 2025 07:52:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 15:06:58.047674
Title: BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models
Title（参考訳）: BeamLLM:大規模言語モデルを用いたビジョン駆動型ミリ波ビーム予測
Authors: Can Zheng, Jiguang He, Guofa Cai, Zitong Yu, Chung G. Kang,
Abstract要約: BeamLLMは、大規模言語モデル(LLM)を利用した視覚支援ミリ波(mmWave)ビーム予測フレームワークである現実的な車内構造(V2I)のシナリオに基づいて,提案手法は61.01%のTop-1精度と97.39%のTop-3精度を標準予測タスクで達成する。数ショットの予測シナリオでは、パフォーマンス劣化はタイムサンプル1から10までの12.56%(トップ-1)と5.55%(トップ-3)に制限され、優れた予測能力を示す。
参考スコア（独自算出の注目度）: 22.11810939970069
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose BeamLLM, a vision-aided millimeter-wave (mmWave) beam prediction framework leveraging large language models (LLMs) to address the challenges of high training overhead and latency in mmWave communication systems. By combining computer vision (CV) with LLMs' cross-modal reasoning capabilities, the framework extracts user equipment (UE) positional features from RGB images and aligns visual-temporal features with LLMs' semantic space through reprogramming techniques. Evaluated on a realistic vehicle-to-infrastructure (V2I) scenario, the proposed method achieves 61.01% top-1 accuracy and 97.39% top-3 accuracy in standard prediction tasks, significantly outperforming traditional deep learning models. In few-shot prediction scenarios, the performance degradation is limited to 12.56% (top-1) and 5.55% (top-3) from time sample 1 to 10, demonstrating superior prediction capability.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)を活用した視線支援ミリ波(mmWave)ビーム予測フレームワークであるBeamLLMを提案する。コンピュータビジョン(CV)とLLMのクロスモーダル推論機能を組み合わせることで、RGB画像からユーザ機器(UE)の位置特徴を抽出し、再プログラミング技術によりLLMのセマンティック空間と視覚的時間的特徴を整合させる。現実的なV2Iシナリオに基づいて,提案手法は標準予測タスクにおいて61.01%のトップ1精度と97.39%のトップ3精度を達成し,従来のディープラーニングモデルよりも大幅に優れていた。数ショットの予測シナリオでは、パフォーマンス劣化はタイムサンプル1から10までの12.56%(トップ-1)と5.55%(トップ-3)に制限され、優れた予測能力を示す。

関連論文リスト

Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文参考訳（メタデータ） (2025-12-27T17:08:03Z)
The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification [74.64864354503204]
本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。 LLMの時系列予測品質を評価する能力を評価する。合成および実世界の予測データを含む3つの実験を行った。
論文参考訳（メタデータ） (2025-12-12T21:59:53Z)
Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。 COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文参考訳（メタデータ） (2025-10-14T17:59:54Z)
Vision-LLMs for Spatiotemporal Traffic Forecasting [14.700408329373998]
大規模言語モデル(LLM)は、グリッドベースのトラフィックデータの複雑な空間的依存関係をモデル化するのに本質的に苦労する。本稿では,視覚言語融合問題として時間的予測を行う新しいフレームワークであるST-Vision-LLMを提案する。また,ST-Vision-LLMでは,長期予測精度が15.6%向上し,クロスドメインシナリオでは30.04%以上向上した。
論文参考訳（メタデータ） (2025-10-13T11:15:56Z)
VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception [50.446538409259524]
VTTS(Visual Test-Time Scaling)は、推論中の反復推論を通じてMLLMの推論を強化する新しい手法である。 VTTSは、高信頼の階層的時間領域に注目することで人間の注意を模倣し、更新されたテキスト予測によってガイドされる。新たに導入した Videochat-R1.5 モデルは,平均 5% 以上の向上を実現しています。
論文参考訳（メタデータ） (2025-09-25T12:46:46Z)
OccamVTS: Distilling Vision Models to 1% Parameters for Time Series Forecasting [32.875367552611266]
時系列予測は多様なアプリケーションに基本的であり、近年では視覚表現を通して時間パターンを捉えるために大きな視覚モデル(LVM)を活用している。 OccamVTSは,LVMからの予測情報の1%を軽量ネットワークに抽出する知識蒸留フレームワークである。
論文参考訳（メタデータ） (2025-08-03T11:43:52Z)
M2BeamLLM: Multimodal Sensing-empowered mmWave Beam Prediction with Large Language Models [22.009889991924453]
M2BeamLLMは、画像、レーダー、LiDAR、GPSを含むマルチモーダルセンサーデータを統合している。その予測性能は、知覚モダリティの多様性の向上とともに一貫して改善される。本研究は車両間通信(V2I)mmWaveにおける効率よくインテリジェントなビーム予測ソリューションを提供する。
論文参考訳（メタデータ） (2025-06-17T13:58:36Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs [11.1036247482657]
本稿では,SMETimesについて述べる。SMETimesは,3B以下のパラメータのSLMを,効率的かつ正確な時系列予測を行うための最初の体系的な研究である。統計的特徴によって数値時系列をテキスト意味論でブリッジする統計的に強化されたプロンプト機構; 学習可能なパラメータを通して時間パターンと言語モデルトークン空間を整列する適応型融合埋め込みアーキテクチャ。
論文参考訳（メタデータ） (2025-03-05T15:27:36Z)
Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [63.34626300024294]
TimeXLはプロトタイプベースの時系列エンコーダを統合するマルチモーダル予測フレームワークである。より正確な予測と解釈可能な説明を生成する。 4つの実世界のデータセットに対する実証的な評価は、TimeXLがAUCで最大8.9%の改善を達成していることを示している。
論文参考訳（メタデータ） (2025-03-02T20:40:53Z)
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。 GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文参考訳（メタデータ） (2024-12-02T18:58:25Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。 LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
Beam Prediction based on Large Language Models [51.45077318268427]
時系列予測タスクとしてミリ波(mmWave)ビーム予測問題を定式化する。我々は、歴史的観測をトレーニング可能なトークン化器を用いてテキストベースの表現に変換する。提案手法はLLMのパワーを利用して将来の最適ビームを予測する。
論文参考訳（メタデータ） (2024-08-16T12:40:01Z)
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文参考訳（メタデータ） (2024-04-18T14:14:44Z)
Camera Based mmWave Beam Prediction: Towards Multi-Candidate Real-World Scenarios [15.287380309115399]
本稿では,実環境におけるV2Iシナリオにおけるセンシング支援ビーム予測問題について広範囲に検討する。特に,視覚的および位置的データを用いて最適なビーム指標を予測することを提案する。提案手法は,大規模実世界のDeepSense 6$Gデータセットを用いて評価する。
論文参考訳（メタデータ） (2023-08-14T00:15:01Z)
Interpretable AI-based Large-scale 3D Pathloss Prediction Model for enabling Emerging Self-Driving Networks [3.710841042000923]
本稿では,新しい鍵予測器を応用した機械学習モデルを提案する。予測,一般化,計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより,光グラディエントブースティングマシン(LightGBM)アルゴリズムが全体として他のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-01-30T19:50:16Z)
Neural forecasting at scale [8.245069318446415]
本研究では,大規模な時系列集合上での時系列予測のために,アンサンブルに基づくディープニューラルネットワークを効率的にスケーリングする問題について検討する。我々のモデルは、関連するモデルの実用的限界に対処し、トレーニング時間を半減し、メモリ要件を5。
論文参考訳（メタデータ） (2021-09-20T17:22:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。