論文の概要: Large AI Model Empowered Multimodal Semantic Communications
- arxiv url: http://arxiv.org/abs/2309.01249v1
- Date: Sun, 3 Sep 2023 19:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:31:40.644131
- Title: Large AI Model Empowered Multimodal Semantic Communications
- Title(参考訳): マルチモーダル意味コミュニケーション能力を持つ大規模aiモデル
- Authors: Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan,
Xiaohu You
- Abstract要約: 本稿では,Large AI Model-based Multimodal SC (LAM-MSC) フレームワークを提案する。
SC-based Multimodal Alignment (MMA)について紹介する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案する。
最後に、CGE(Conditional Generative Adversarial Network-based Channel Estimation)を適用し、CSI(Channel State Information)を得る。
- 参考スコア(独自算出の注目度): 51.17527319441436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal signals, including text, audio, image and video, can be integrated
into Semantic Communication (SC) for providing an immersive experience with low
latency and high quality at the semantic level. However, the multimodal SC has
several challenges, including data heterogeneity, semantic ambiguity, and
signal fading. Recent advancements in large AI models, particularly in
Multimodal Language Model (MLM) and Large Language Model (LLM), offer potential
solutions for these issues. To this end, we propose a Large AI Model-based
Multimodal SC (LAM-MSC) framework, in which we first present the MLM-based
Multimodal Alignment (MMA) that utilizes the MLM to enable the transformation
between multimodal and unimodal data while preserving semantic consistency.
Then, a personalized LLM-based Knowledge Base (LKB) is proposed, which allows
users to perform personalized semantic extraction or recovery through the LLM.
This effectively addresses the semantic ambiguity. Finally, we apply the
Conditional Generative adversarial networks-based channel Estimation (CGE) to
obtain Channel State Information (CSI). This approach effectively mitigates the
impact of fading channels in SC. Finally, we conduct simulations that
demonstrate the superior performance of the LAM-MSC framework.
- Abstract(参考訳): テキスト、音声、画像、ビデオを含むマルチモーダル信号は、セマンティックコミュニケーション(SC)に統合され、低レイテンシで、セマンティックレベルで高品質な没入型体験を提供する。
しかし、マルチモーダルSCには、データ不均一性、意味的曖昧性、信号の消失など、いくつかの課題がある。
大規模AIモデルの最近の進歩、特にMLM(Multimodal Language Model)とLLM(Large Language Model)は、これらの問題に対する潜在的な解決策を提供する。
そこで我々は,MLMを利用したMLMベースのマルチモーダルアライメント(MMA)を初めて提示し,意味的一貫性を維持しつつ,マルチモーダルデータとユニモーダルデータの変換を可能にする,大規模AIモデルに基づくマルチモーダルSC(LAM-MSC)フレームワークを提案する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、LLMを通してパーソナライズされた意味抽出やリカバリを行うことができる。
これは意味的曖昧さに効果的に対処する。
最後に,条件付き生成型adversarial network-based channel estimation(cge)を用いてチャネル状態情報(csi)を得る。
このアプローチはSCにおけるフェードチャネルの影響を効果的に軽減する。
最後に,LAM-MSCフレームワークの優れた性能を示すシミュレーションを行う。
関連論文リスト
- Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。
LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-09-30T07:14:31Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。
AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する
我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文 参考訳(メタデータ) (2023-09-27T22:50:51Z) - NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。
NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。
モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文 参考訳(メタデータ) (2023-09-11T15:02:25Z) - Enabling the Wireless Metaverse via Semantic Multiverse Communication [82.47169682083806]
無線ネットワーク上のメタバースは、第6世代(6G)無線システムの新たなユースケースである。
メタバースを人間/機械エージェント固有のセマンティック・マルチバース(SM)に分解する新しいセマンティック・コミュニケーション・フレームワークを提案する。
各エージェントに格納されたSMは、セマンティックエンコーダとジェネレータから構成され、生成人工知能(AI)の最近の進歩を活用する。
論文 参考訳(メタデータ) (2022-12-13T21:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。