Fugu-MT 論文翻訳(概要): Large AI Model Empowered Multimodal Semantic Communications

論文の概要: Large AI Model Empowered Multimodal Semantic Communications

arxiv url: http://arxiv.org/abs/2309.01249v1
Date: Sun, 3 Sep 2023 19:24:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 20:31:40.644131
Title: Large AI Model Empowered Multimodal Semantic Communications
Title（参考訳）: マルチモーダル意味コミュニケーション能力を持つ大規模aiモデル
Authors: Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan, Xiaohu You
Abstract要約: 本稿では,Large AI Model-based Multimodal SC (LAM-MSC) フレームワークを提案する。 SC-based Multimodal Alignment (MMA)について紹介する。次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案する。最後に、CGE(Conditional Generative Adversarial Network-based Channel Estimation)を適用し、CSI(Channel State Information)を得る。
参考スコア（独自算出の注目度）: 51.17527319441436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal signals, including text, audio, image and video, can be integrated into Semantic Communication (SC) for providing an immersive experience with low latency and high quality at the semantic level. However, the multimodal SC has several challenges, including data heterogeneity, semantic ambiguity, and signal fading. Recent advancements in large AI models, particularly in Multimodal Language Model (MLM) and Large Language Model (LLM), offer potential solutions for these issues. To this end, we propose a Large AI Model-based Multimodal SC (LAM-MSC) framework, in which we first present the MLM-based Multimodal Alignment (MMA) that utilizes the MLM to enable the transformation between multimodal and unimodal data while preserving semantic consistency. Then, a personalized LLM-based Knowledge Base (LKB) is proposed, which allows users to perform personalized semantic extraction or recovery through the LLM. This effectively addresses the semantic ambiguity. Finally, we apply the Conditional Generative adversarial networks-based channel Estimation (CGE) to obtain Channel State Information (CSI). This approach effectively mitigates the impact of fading channels in SC. Finally, we conduct simulations that demonstrate the superior performance of the LAM-MSC framework.
Abstract（参考訳）: テキスト、音声、画像、ビデオを含むマルチモーダル信号は、セマンティックコミュニケーション(SC)に統合され、低レイテンシで、セマンティックレベルで高品質な没入型体験を提供する。しかし、マルチモーダルSCには、データ不均一性、意味的曖昧性、信号の消失など、いくつかの課題がある。大規模AIモデルの最近の進歩、特にMLM(Multimodal Language Model)とLLM(Large Language Model)は、これらの問題に対する潜在的な解決策を提供する。そこで我々は,MLMを利用したMLMベースのマルチモーダルアライメント(MMA)を初めて提示し,意味的一貫性を維持しつつ,マルチモーダルデータとユニモーダルデータの変換を可能にする,大規模AIモデルに基づくマルチモーダルSC(LAM-MSC)フレームワークを提案する。次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、LLMを通してパーソナライズされた意味抽出やリカバリを行うことができる。これは意味的曖昧さに効果的に対処する。最後に,条件付き生成型adversarial network-based channel estimation(cge)を用いてチャネル状態情報(csi)を得る。このアプローチはSCにおけるフェードチャネルの影響を効果的に軽減する。最後に,LAM-MSCフレームワークの優れた性能を示すシミュレーションを行う。

関連論文リスト

Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文参考訳（メタデータ） (2025-07-02T14:03:01Z)
Token Communication-Driven Multimodal Large Models in Resource-Constrained Multiuser Networks [7.137830911253685]
マルチモーダルの大型モデルはインテリジェントなアプリケーションをワイヤレスエッジに展開する上でこれらの制約は、帯域幅、計算能力、および厳格なレイテンシ要件として表される。本稿では,ユーザデバイスとエッジインフラストラクチャ間の分散的な拡散を促進するトークン通信パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-06T14:17:05Z)
Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文参考訳（メタデータ） (2025-04-13T07:49:08Z)
Transfer between Modalities with MetaQueries [44.57406292414526]
自己回帰型マルチモーダルLLMと拡散モデルの間の効率的なインターフェースとして機能する,学習可能なクエリセットであるMetaQueriesを紹介する。本手法は,2つの画像キャプチャデータと標準拡散目標のみを必要とする訓練を簡略化する。本手法はフレキシブルであり,画像編集や主観的生成などの高度なアプリケーションに対して容易に命令調整を行うことができる。
論文参考訳（メタデータ） (2025-04-08T17:58:47Z)
A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文参考訳（メタデータ） (2025-03-25T09:09:30Z)
SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework [22.924064428134507]
単一モードセンシングは精度と能力の限界に直面し、通信システムとの疎結合実装によりレイテンシが増大する。本稿では,これらの課題を克服するために,意味駆動型統合マルチモーダルセンシング・通信フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T01:04:42Z)
Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。 LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文参考訳（メタデータ） (2024-09-30T07:14:31Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。 M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。 M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文参考訳（メタデータ） (2023-12-11T13:11:04Z)
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。 AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文参考訳（メタデータ） (2023-09-27T22:50:51Z)
NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。 NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文参考訳（メタデータ） (2023-09-11T15:02:25Z)
Enabling the Wireless Metaverse via Semantic Multiverse Communication [82.47169682083806]
無線ネットワーク上のメタバースは、第6世代(6G)無線システムの新たなユースケースである。メタバースを人間/機械エージェント固有のセマンティック・マルチバース(SM)に分解する新しいセマンティック・コミュニケーション・フレームワークを提案する。各エージェントに格納されたSMは、セマンティックエンコーダとジェネレータから構成され、生成人工知能(AI)の最近の進歩を活用する。
論文参考訳（メタデータ） (2022-12-13T21:21:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。