Fugu-MT 論文翻訳(概要): Structure-Aware Multimodal LLM Framework for Trustworthy Near-Field Beam Prediction

論文の概要: Structure-Aware Multimodal LLM Framework for Trustworthy Near-Field Beam Prediction

arxiv url: http://arxiv.org/abs/2603.16143v1
Date: Tue, 17 Mar 2026 05:52:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.119318
Title: Structure-Aware Multimodal LLM Framework for Trustworthy Near-Field Beam Prediction
Title（参考訳）: 信頼に値する近接場ビーム予測のための構造対応マルチモーダルLLMフレームワーク
Authors: Mengyuan Li, Qianfan Lu, Jiachen Tian, Hongjun Hu, Yu Han, Xiao Li, Chao-kai Wen, Shi Jin,
Abstract要約: 近接場系では、球面波面伝播は従来のビームコードブックを合同角距離領域に拡張する。我々は,歴史的GPSデータ,RGB画像,LiDARデータ,戦略的に設計されたタスク固有のテキストプロンプトを融合した,LLM駆動の多モーダルフレームワークを提案する。
参考スコア（独自算出の注目度）: 58.26409205915576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In near-field extremely large-scale multiple-input multiple-output (XL-MIMO) systems, spherical wavefront propagation expands the traditional beam codebook into the joint angular-distance domain, rendering conventional beam training prohibitively inefficient, especially in complex 3-dimensional (3D) low-altitude environments. Furthermore, since near-field beam variations are deeply coupled not only with user positions but also with the physical surroundings, precise beam alignment demands profound environmental understanding capabilities. To address this, we propose a large language model (LLM)-driven multimodal framework that fuses historical GPS data, RGB image, LiDAR data, and strategically designed task-specific textual prompts. By utilizing the powerful emergent reasoning and generalization capabilities of the LLM, our approach learns complex spatial dynamics to achieve superior environmental comprehension...
Abstract（参考訳）: 近場の超大規模マルチインプット多重出力(XL-MIMO)システムでは、球面波面伝播は従来のビームコードブックをジョイント角距離領域に拡張し、特に複雑な3次元3次元低高度環境において従来のビームトレーニングを非効率に行う。さらに, 近接場ビームの変動はユーザ位置だけでなく, 物理的環境とも深く結びついているので, 正確なビームアライメントは環境理解の深い能力を必要とする。そこで本稿では,歴史的GPSデータ,RGB画像,LiDARデータ,戦略的に設計されたタスク固有のテキストプロンプトを融合した,LLM駆動の多モーダルフレームワークを提案する。 LLMの強力な創発的推論と一般化能力を利用することで、複雑な空間力学を学習し、より優れた環境理解を実現する。

関連論文リスト

OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-23T13:57:55Z)
SmolRGPT: Efficient Spatial Reasoning for Warehouse Environments with 600M Parameters [0.0]
本稿では,領域レベルの空間的推論を明示的に組み込んだ,コンパクトな視覚言語アーキテクチャであるSmolRGPTを提案する。 SmolRGPTは3段階のカリキュラムを採用しており、視覚的特徴と言語的特徴を段階的に整列させ、空間的関係理解を可能にし、タスク固有のデータセットに適応する。 SmolRGPTは6億のパラメータしか持たず、倉庫の空間推論ベンチマークに挑戦し、より大きな代替品の性能にマッチまたは超える結果が得られることを示した。
論文参考訳（メタデータ） (2025-09-18T23:55:51Z)
Spatial Knowledge Graph-Guided Multimodal Synthesis [78.11669780958657]
本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
論文参考訳（メタデータ） (2025-05-28T17:50:21Z)
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文参考訳（メタデータ） (2025-05-22T17:59:39Z)
EarthGPT-X: A Spatial MLLM for Multi-level Multi-Source Remote Sensing Imagery Understanding with Visual Prompting [46.44805092655782]
EarthGPT-Xは、マルチソースRS画像の理解を統一する最初のフレキシブル空間MLLMである。 1つのフレームワークで様々な視覚的プロンプトの下で、粗い粒度ときめ細かな視覚的タスクを達成します。
論文参考訳（メタデータ） (2025-04-17T09:56:35Z)
Near-field Beam training for Extremely Large-scale MIMO Based on Deep Learning [20.67122533341949]
深層学習に基づく近接場ビームトレーニング手法を提案する。我々は,歴史データからチャネル特性を効率的に学習するために,畳み込みニューラルネットワーク(CNN)を用いる。提案手法は,従来のビームトレーニング法と比較して,より安定したビームフォーミングゲインを実現し,性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-05T13:26:25Z)
MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。 MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文参考訳（メタデータ） (2023-12-07T18:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。