論文の概要: MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals
- arxiv url: http://arxiv.org/abs/2603.08174v1
- Date: Mon, 09 Mar 2026 09:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.749365
- Title: MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals
- Title(参考訳): MERLIN:電磁信号用低SNRロバスト多モード膜の構築
- Authors: Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は電磁(EM)領域を前進させるために有望な青写真を提供する。
一般的なアプローチは、タスク固有のアーキテクチャやパイプラインアーキテクチャを使う代わりに、ネイティブMLLMパラダイムから逸脱することが多い。
EMドメインにおけるMLLMの基礎を確立するために,三部構成のコントリビューションを導入する。
- 参考スコア(独自算出の注目度): 31.75582499337459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paradigm of Multimodal Large Language Models (MLLMs) offers a promising blueprint for advancing the electromagnetic (EM) domain. However, prevailing approaches often deviate from the native MLLM paradigm, instead using task-specific or pipelined architectures that lead to fundamental limitations in model performance and generalization. Fully realizing the MLLM potential in EM domain requires overcoming three main challenges: (1) Data. The scarcity of high-quality datasets with paired EM signals and descriptive text annotations used for MLLMs pre-training; (2) Benchmark. The absence of comprehensive benchmarks to systematically evaluate and compare the performance of models on EM signal-to-text tasks; (3) Model. A critical fragility in low Signal-to-Noise Ratio (SNR) environments, where critical signal features can be obscured, leading to significant performance degradation. To address these challenges, we introduce a tripartite contribution to establish a foundation for MLLMs in the EM domain. First, to overcome data scarcity, we construct and release EM-100k, a large-scale dataset comprising over 100,000 EM signal-text pairs. Second, to enable rigorous and standardized evaluation, we propose EM-Bench, the most comprehensive benchmark featuring diverse downstream tasks spanning from perception to reasoning. Finally, to tackle the core modeling challenge, we present MERLIN, a novel training framework designed not only to align low-level signal representations with high-level semantic text, but also to explicitly enhance model robustness and performance in challenging low-SNR environments. Comprehensive experiments validate our method, showing that MERLIN is state-of-the-art in the EM-Bench and exhibits remarkable robustness in low-SNR settings.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)のパラダイムは、電磁(EM)領域を前進させるための有望な青写真を提供する。
しかし、一般的なアプローチはMLLMのパラダイムから逸脱することが多く、代わりにタスク固有のアーキテクチャやパイプラインアーキテクチャを使って、モデルの性能と一般化の根本的な制限を導いている。
EMドメインにおけるMLLMの可能性を完全に認識するには、3つの大きな課題を克服する必要がある。
MLLMの事前学習に使用するペアEM信号と記述テキストアノテーションを用いた高品質データセットの不足(2)ベンチマーク
EM信号対テキストタスクにおけるモデルの性能を体系的に評価し比較するための包括的なベンチマークが存在しないこと。
低信号対雑音比(SNR)環境では、重要な信号の特徴が隠蔽され、性能が著しく低下する。
これらの課題に対処するために、EMドメインにおけるMLLMの基礎を確立するための三部作の貢献を紹介する。
まず,データ不足を克服するために,10万以上のEM信号テキストペアからなる大規模データセットEM-100kを構築し,リリースする。
第二に、厳密で標準化された評価を可能にするために、認識から推論まで多様な下流タスクを特徴とする最も包括的なベンチマークであるEM-Benchを提案する。
MERLINは,低レベルな信号表現を高レベルなセマンティックテキストに整合させるだけでなく,低SNR環境に挑戦する際のモデルロバスト性や性能を明確化するための新しいトレーニングフレームワークである。
MERLINはEM-Benchの最先端技術であり,低SNR環境では顕著な堅牢性を示す。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - LMAR: Language Model Augmented Retriever for Domain-specific Knowledge Indexing [42.51773265892766]
Retrieval Augmented Generation (RAG) システムは、事前訓練された埋め込みの性能劣化のためにドメイン固有の知識に苦しむことが多い。
LLM誘導データ合成と対比埋め込み適応と効率的なテキストクラスタリングを組み合わせることで、これらの課題に対処するモデルに依存しないフレームワークであるLMAR(Language Model Augmented Retriever)を提案する。
論文 参考訳(メタデータ) (2025-08-04T16:59:43Z) - AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion [26.058143518505805]
本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。
EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
論文 参考訳(メタデータ) (2025-07-29T13:01:59Z) - Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。
その信頼性は、幻覚検出の課題によって妨げられている。
本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文 参考訳(メタデータ) (2025-05-29T09:50:56Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。