Fugu-MT 論文翻訳(概要): NExT-GPT: Any-to-Any Multimodal LLM

論文の概要: NExT-GPT: Any-to-Any Multimodal LLM

arxiv url: http://arxiv.org/abs/2309.05519v2
Date: Wed, 13 Sep 2023 16:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 11:15:29.151842
Title: NExT-GPT: Any-to-Any Multimodal LLM
Title（参考訳）: NExT-GPT: 任意のマルチモーダルLCM
Authors: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
Abstract要約: 我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。 NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
参考スコア（独自算出の注目度）: 81.07030112038474
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community. Project page: https://next-gpt.github.io/
Abstract（参考訳）: 最近、MM-LLM(Multimodal Large Language Models)は、エキサイティングな進歩を遂げているが、主に、複数のモーダルでコンテンツを生成する能力のない、入力側のマルチモーダル理解の限界に陥る。人間は常に世界を理解し、様々なモダリティを通じて人々とコミュニケーションをとるので、あらゆるモダリティでコンテンツを受け入れ、届けることのできるMM-LLMを開発することは、人間レベルのAIにとって不可欠である。このギャップを埋めるために,NExT-GPTという汎用的なMM-LLMシステムを提案する。 llmをマルチモーダル適応器と異なる拡散デコーダに接続し、next-gptが入力を知覚し、テキスト、画像、ビデオ、音声の任意の組み合わせで出力を生成する。既存のよく訓練された高性能エンコーダとデコーダを活用することで、NEXT-GPTは特定の射影層の少ないパラメータ(1%)で調整される。さらに,モダリティスイッチング命令チューニング(mosit)を導入し,複雑なクロスモーダル意味理解とコンテンツ生成を付与されたnext-gptに基づくmositの高品質データセットを手作業で収集する。全体として、我々の研究は、普遍的なモダリティをモデル化できるAIエージェントを構築する可能性を示し、コミュニティにおけるより人間らしいAI研究への道を開いた。プロジェクトページ: https://next-gpt.github.io/

関連論文リスト

Sensing and Understanding the World over Air: A Large Multimodal Model for Mobile Networks [59.23869884913339]
無線ネイティブなマルチモーダル大モデル(WMLM)は、マルチモーダルデータによって物理世界を理解し、理解することができる。我々は、GPTスタイルのWMLMモデルを構築し、それを現実世界の大規模データセット上で訓練し、無線信号をコントラスト学習のためのアンカーモダリティとして活用した。
論文参考訳（メタデータ） (2025-11-17T07:33:46Z)
Large Multimodal Models-Empowered Task-Oriented Autonomous Communications: Design Methodology and Implementation Challenges [31.57528074626831]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は前例のない突破口となった。本稿では,LLM/LMMを用いたタスク指向の自律通信について述べる。提案したLLM/LMM支援自律システムは,従来型および差別型深層学習(DL)モデルに基づく手法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-10-23T15:08:58Z)
Sample-efficient Integration of New Modalities into Large Language Models [48.81776019848246]
マルチモーダル基礎モデルはいくつかのモダリティを処理できる。本稿では,大規模言語モデルへのサンプル効率改善手法を提案する。 SEMIは、新しいモダリティを数秒で統合することで、サンプル効率を大幅に向上することがわかった。
論文参考訳（メタデータ） (2025-09-04T18:41:59Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。 LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文参考訳（メタデータ） (2024-02-22T12:36:31Z)
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-02-19T15:33:10Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。 M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。 M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文参考訳（メタデータ） (2023-12-11T13:11:04Z)
Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文参考訳（メタデータ） (2023-09-03T19:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。