論文の概要: When Does Multimodal AI Help? Diagnostic Complementarity of Vision-Language Models and CNNs for Spectrum Management in Satellite-Terrestrial Networks
- arxiv url: http://arxiv.org/abs/2604.03774v1
- Date: Sat, 04 Apr 2026 15:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.763652
- Title: When Does Multimodal AI Help? Diagnostic Complementarity of Vision-Language Models and CNNs for Spectrum Management in Satellite-Terrestrial Networks
- Title(参考訳): マルチモーダルAIはいつ役に立つのか : 衛星地上ネットワークにおけるスペクトル管理のための視覚言語モデルとCNNの相補性
- Authors: Yuanhang Li,
- Abstract要約: 無線ネットワーク管理のための視覚言語モデル(VLM)は、スペクトル関連タスクのための軽量畳み込みニューラルネットワーク(CNN)よりも優れていることを示す。
本稿では,4段階の粒度分類(L1),空間的局所化(L2),意味的推論(L4)からなる108Kの視覚的問合せ対からなるベンチマークであるSpectrumQAを紹介する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of vision-language models (VLMs) for wireless network management is accelerating, yet no systematic understanding exists of where these large foundation models outperform lightweight convolutional neural networks (CNNs) for spectrum-related tasks. This paper presents the first diagnostic comparison of VLMs and CNNs for spectrum heatmap understanding in non-terrestrial network and terrestrial network (NTN-TN) cooperative systems. We introduce SpectrumQA, a benchmark comprising 108K visual question-answer pairs across four granularity levels: scene classification (L1), regional reasoning (L2), spatial localization (L3), and semantic reasoning (L4). Our experiments on three NTN-TN scenarios with a frozen Qwen2-VL-7B and a trained ResNet-18 reveal a clear taskdependent complementarity: CNN achieves 72.9% accuracy at severity classification (L1) and 0.552 IoU at spatial localization (L3), while VLM uniquely enables semantic reasoning (L4) with F1=0.576 using only three in-context examples-a capability fundamentally absent in CNN architectures. Chain-of-thought (CoT) prompting further improves VLM reasoning by 12.6% (F1: 0.209->0.233) while having zero effect on spatial tasks, confirming that the complementarity is rooted in architectural differences rather than prompting limitations. A deterministic task-type router that delegates supervised tasks to CNN and reasoning tasks to VLM achieves a composite score of 0.616, a 39.1% improvement over CNN alone. We further show that VLM representations exhibit stronger cross-scenario robustness, with smaller performance degradation in 5 out of 6 transfer directions. These findings provide actionable guidelines: deploy CNNs for spatial localization and VLMs for semantic spectrum reasoning, rather than treating them as substitutes.
- Abstract(参考訳): 無線ネットワーク管理における視覚言語モデル(VLM)の採用は加速しているが、これらの大きな基盤モデルは、スペクトル関連タスクにおいて軽量畳み込みニューラルネットワーク(CNN)よりも優れているという体系的な理解は存在しない。
本稿では,地球外ネットワークおよび地球外ネットワーク(NTN-TN)協調システムにおけるスペクトル熱マップ理解のためのVLMとCNNの最初の診断比較を行った。
本研究では,シーン分類(L1),地域推論(L2),空間的局所化(L3),意味推論(L4)の4つの粒度の108Kの視覚的問合せペアからなるベンチマークであるSpectrumQAを紹介する。
CNNは重度分類(L1)では72.9%,空間的局所化(L3)では0.552 IoUで72.9%,VLMではF1=0.576で意味論的推論(L4)が一意に可能であるのに対し、CNNアーキテクチャでは基本的に欠落している3つの実例のみを用いてF1=0.576で意味論的推論(L4)が可能である。
チェーン・オブ・シント(CoT)は、空間的タスクに影響を与えないにもかかわらず、VLM推論を12.6%改善する(F1: 0.209->0.233)。
教師付きタスクをCNNに委譲し、VLMに推論タスクを委譲する決定論的タスク型ルータは、合成スコア0.616を達成し、CNNだけで39.1%改善した。
さらに、VLM表現は6つの転送方向のうち5つで性能劣化が小さく、より強力なクロスセサリオロバスト性を示すことを示す。
これらの知見は, 空間的局所化のためのCNNと意味スペクトル推論のためのVLMを, 代用として扱うのではなく, 動作可能なガイドラインを提供する。
関連論文リスト
- Frugal Federated Learning for Violence Detection: A Comparison of LoRA-Tuned VLMs and Personalized CNNs [0.27998963147546135]
視覚言語モデル(VLM)のゼロショットとフェデレートされた微調整と、コンパクトな3次元畳み込みニューラルネットワーク(CNN3D)のパーソナライズされたトレーニングを比較した。
リアルな非IID環境下での精度,キャリブレーション,エネルギー使用量を評価した。
これらの結果は, 日常的な分類のための軽量CNNと, 複雑なシナリオや記述シナリオのための選択的VLMアクティベーションのハイブリッドモデルをサポートする。
論文 参考訳(メタデータ) (2025-10-20T15:26:43Z) - SVL: Spike-based Vision-language Pretraining for Efficient 3D Open-world Understanding [12.75012908465477]
スパイキングニューラルネットワーク(SNN)は3次元時間的理解を抽出するエネルギー効率の良い方法を提供する。
既存のSNNは、Artificial Neural Networks(ANN)と比較して、大きなパフォーマンスギャップを示している。
本稿では,オープンワールド3D理解によるSNNの学習を支援する,Spikeベースのビジョンランゲージ(SVL)事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:41:10Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。
ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。
我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文 参考訳(メタデータ) (2022-07-15T03:27:13Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - A CNN-LSTM Quantifier for Single Access Point CSI Indoor Localization [9.601632184687787]
本稿では,Wi-Fiフィンガープリンティング屋内ローカライゼーションのための畳み込みニューラルネットワーク(CNN)と長寿命メモリ(LSTM)量子化器(LSTM)を組み合わせたネットワーク構造を提案する。
WiFiルータを1つだけ使うと、平均局所化誤差が2.5mで、4m未満の誤差は$mathrm80%である。
論文 参考訳(メタデータ) (2020-05-13T16:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。