論文の概要: Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems
- arxiv url: http://arxiv.org/abs/2402.01748v2
- Date: Wed, 7 Feb 2024 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:43:59.450915
- Title: Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems
- Title(参考訳): AI-Native Wireless SystemsのためのUniversal Foundation ModelとしてのLMM
- Authors: Shengzhe Xu, Christo Kurisummoottil Thomas, Omar Hashash, Nikhil
Muralidhar, Walid Saad, Naren Ramakrishnan
- Abstract要約: 大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
- 参考スコア(独自算出の注目度): 57.41621687431203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and foundation models have been recently touted
as a game-changer for 6G systems. However, recent efforts on LLMs for wireless
networks are limited to a direct application of existing language models that
were designed for natural language processing (NLP) applications. To address
this challenge and create wireless-centric foundation models, this paper
presents a comprehensive vision on how to design universal foundation models
that are tailored towards the deployment of artificial intelligence (AI)-native
networks. Diverging from NLP-based foundation models, the proposed framework
promotes the design of large multi-modal models (LMMs) fostered by three key
capabilities: 1) processing of multi-modal sensing data, 2) grounding of
physical symbol representations in real-world wireless systems using causal
reasoning and retrieval-augmented generation (RAG), and 3) enabling
instructibility from the wireless environment feedback to facilitate dynamic
network adaptation thanks to logical and mathematical reasoning facilitated by
neuro-symbolic AI. In essence, these properties enable the proposed LMM
framework to build universal capabilities that cater to various cross-layer
networking tasks and alignment of intents across different domains. Preliminary
results from experimental evaluation demonstrate the efficacy of grounding
using RAG in LMMs, and showcase the alignment of LMMs with wireless system
designs. Furthermore, the enhanced rationale exhibited in the responses to
mathematical questions by LMMs, compared to vanilla LLMs, demonstrates the
logical and mathematical reasoning capabilities inherent in LMMs. Building on
those results, we present a sequel of open questions and challenges for LMMs.
We then conclude with a set of recommendations that ignite the path towards
LMM-empowered AI-native systems.
- Abstract(参考訳): 大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
しかし、近年の無線ネットワーク用LLMの取り組みは、自然言語処理(NLP)アプリケーション用に設計された既存の言語モデルの直接的な応用に限られている。
この課題に対処し、無線中心の基盤モデルを作成するために、人工知能(AI)ネイティブネットワークの展開に適したユニバーサル基盤モデルを設計するための包括的なビジョンを示す。
NLPベースの基礎モデルから切り離され,提案するフレームワークは,3つの重要な機能を持つ大規模マルチモーダルモデル(LMM)の設計を促進する。
1)マルチモーダルセンシングデータの処理
2)因果推論と検索型生成(rag)を用いた実世界の無線システムにおける物理的シンボル表現の接地
3) ニューロシンボリックaiによる論理的・数学的推論による動的ネットワーク適応のための無線環境フィードバックからの操作性の実現。
本質的に、これらの特性により、提案されたLMMフレームワークは、様々な層間ネットワークタスクと異なるドメイン間のインテントのアライメントに対応する普遍的な機能を構築することができる。
実験結果から, LMMにおけるRAGを用いたグラウンドディングの有効性を示すとともに, LMMと無線システム設計との整合性を示す。
さらに、lmmsによる数学的問題に対する反応において、バニラllmと比較して示された拡張論理は、lmmに固有の論理的および数学的推論能力を示す。
これらの結果に基づいて,LMMに対するオープンな質問と課題の続編を提示する。
そして、LMMを利用したAIネイティブシステムへの道のりを照らす一連のレコメンデーションで締めくくります。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Large Language Model-Based Interpretable Machine Learning Control in
Building Energy Systems [3.580636644178055]
本稿では、モデルとその推論の透明性と理解を高める機械学習(ML)の分野である、解釈可能な機械学習(IML)について検討する。
共有価値の原則とLarge Language Models(LLMs)のコンテキスト内学習機能を組み合わせた革新的なフレームワークを開発する。
本稿では,仮想テストベッドにおける需要応答イベント下での予測制御に基づく事前冷却モデルの実現可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2024-02-14T21:19:33Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - Large Language Model Adaptation for Networking [38.19277227027375]
NetLLMは、ネットワーク問題を解決するために大規模言語モデルを効率的に適応する最初のフレームワークである。
我々は、NetLLMがVPが10.1-36.6%、ABRが14.5-36.6%、CJSが6.8-41.3%、そして、優れた一般化性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:21:34Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [50.12526092423589]
もっとも先進的なLMMでさえ、構成的視覚的推論の側面を捉えるのに苦戦している。
本稿では,新しいゼロショット・チェーン・オブ・ノート法であるコンポジション・チェーン・オブ・ノート(CCoT)を提案する。
具体的には、まずLMMを用いてSGを生成し、次にそのSGをプロンプトに使用して応答を生成する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - NExT-GPT: Any-to-Any Multimodal LLM [81.07030112038474]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。
NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。
モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文 参考訳(メタデータ) (2023-09-11T15:02:25Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。