論文の概要: AI2MMUM: AI-AI Oriented Multi-Modal Universal Model Leveraging Telecom Domain Large Model
- arxiv url: http://arxiv.org/abs/2505.10003v1
- Date: Thu, 15 May 2025 06:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.203848
- Title: AI2MMUM: AI-AI Oriented Multi-Modal Universal Model Leveraging Telecom Domain Large Model
- Title(参考訳): AI2MMUM:Telecom Domain Large Modelを活用するAI-AI指向マルチモーダルユニバーサルモデル
- Authors: Tianyu Jiao, Zhuoran Xiao, Yihang Huang, Chenhui Ye, Yijia Feng, Liyu Cai, Jiang Chang, Fangkun Liu, Yin Xu, Dazhi He, Yunfeng Guan, Wenjun Zhang,
- Abstract要約: 本稿では,AI2MMUM(AI2MMUM)の多モードユニバーサルモデルを提案する。
タスク適応性を高めるために、タスク命令は固定されたタスクキーワードと学習可能な暗黙のプレフィックスプロンプトから構成される。
タスク固有の軽量ヘッドは、タスク目標を直接出力するように設計されている。
- 参考スコア(独自算出の注目度): 8.404195378257178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing a 6G-oriented universal model capable of processing multi-modal data and executing diverse air interface tasks has emerged as a common goal in future wireless systems. Building on our prior work in communication multi-modal alignment and telecom large language model (LLM), we propose a scalable, task-aware artificial intelligence-air interface multi-modal universal model (AI2MMUM), which flexibility and effectively perform various physical layer tasks according to subtle task instructions. The LLM backbone provides robust contextual comprehension and generalization capabilities, while a fine-tuning approach is adopted to incorporate domain-specific knowledge. To enhance task adaptability, task instructions consist of fixed task keywords and learnable, implicit prefix prompts. Frozen radio modality encoders extract universal representations and adapter layers subsequently bridge radio and language modalities. Moreover, lightweight task-specific heads are designed to directly output task objectives. Comprehensive evaluations demonstrate that AI2MMUM achieves SOTA performance across five representative physical environment/wireless channel-based downstream tasks using the WAIR-D and DeepMIMO datasets.
- Abstract(参考訳): マルチモーダルデータを処理し,多様なエアインターフェースタスクを実行する6G指向のユニバーサルモデルの設計が,将来の無線システムにおいて共通の目標として浮上した。
マルチモーダルアライメントとテレコム大言語モデル (LLM) の通信におけるこれまでの取り組みに基づいて、我々は、微妙なタスク命令に従って様々な物理層タスクを柔軟かつ効果的に実行する、スケーラブルでタスク対応のAI2MMUM(Artificial Intelligence-air Interface Multi-modal Universal Model)を提案する。
LLMのバックボーンは、堅牢なコンテキスト理解と一般化機能を提供する一方で、ドメイン固有の知識を組み込むための微調整アプローチが採用されている。
タスク適応性を高めるために、タスク命令は固定されたタスクキーワードと学習可能な暗黙のプレフィックスプロンプトから構成される。
凍結した無線モダリティエンコーダは普遍的な表現を抽出し、アダプタ層はその後、無線および言語モダリティをブリッジする。
さらに、タスク固有ヘッドはタスク目標を直接出力するように設計されている。
AI2MMUMは、WAIR-DデータセットとDeepMIMOデータセットを使用して、5つの代表的な物理環境/ワイヤレスチャネルベースの下流タスクでSOTA性能を実現する。
関連論文リスト
- LLM Agents as 6G Orchestrator: A Paradigm for Task-Oriented Physical-Layer Automation [1.128193862264227]
本稿では,タスク指向型6G LLMエージェント構築のための包括的アプローチを提案する。
まず,フィールド基本モデルを構築するための2段階の事前学習と微調整方式を提案する。
物理層分解などの模範課題の実験結果から,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-09-21T05:08:29Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration [74.31268379055201]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。
効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-11-07T14:21:29Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。