論文の概要: Spider: Any-to-Many Multimodal LLM
- arxiv url: http://arxiv.org/abs/2411.09439v1
- Date: Thu, 14 Nov 2024 16:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:30.990234
- Title: Spider: Any-to-Many Multimodal LLM
- Title(参考訳): スパイダー:マルチモーダル・マルチモーダル・LLM
- Authors: Jinxiang Lai, Jie Zhang, Jun Liu, Jian Li, Xiaocheng Lu, Song Guo,
- Abstract要約: 我々は、新しい効率的なAny-to-Manyモダリティ生成フレームワークであるSpiderを紹介する。
スパイダーは「Text + Xs」の任意の組み合わせを生成できる(Text + Image and Audio and Video)。
Spiderを訓練するために、新しいテキストフォーマット多モード(TMM)データセットを構築した。
最終的に、よく訓練されたスパイダーは擬似的なX-to-Xsデータセット、すなわち最初のX-to-Xs多モードデータセットを生成する。
- 参考スコア(独自算出の注目度): 19.378611859312496
- License:
- Abstract: Multimodal LLMs (MLLMs) have emerged as an extension of Large Language Models (LLMs), enabling the integration of various modalities. However, Any-to-Any MLLMs are limited to generating pairwise modalities 'Text + X' within a single response, such as Text + {Image or Audio or Video}. To address this limitation, we introduce Spider, a novel efficient Any-to-Many Modalities Generation (AMMG) framework, which can generate an arbitrary combination of modalities 'Text + Xs', such as Text + {Image and Audio and Video}. To achieve efficient AMMG, our Spider integrates three core components: a Base Model for basic X-to-X (i.e., Any-to-Any) modality processing, a novel Efficient Decoders-Controller for controlling multimodal Decoders to generate Xs (many-modal) contents, and an Any-to-Many Instruction Template designed for producing Xs signal prompts. To train Spider, we constructed a novel Text-formatted Many-Modal (TMM) dataset, which facilitates the learning of the X-to-Xs (i.e., Any-to-Many) capability necessary for AMMG. Ultimately, the well-trained Spider generates a pseudo X-to-Xs dataset, the first-ever X-to-Xs many-modal dataset, enhancing the potential for AMMG task in future research. Overall, this work not only pushes the boundary of multimodal interaction but also provides rich data support for advancing the field.
- Abstract(参考訳): MLLM (Multimodal LLMs) はLarge Language Models (LLMs) の拡張として登場し、様々なモダリティの統合を可能にしている。
しかし、Any-to-Any MLLMは、Text + {Image or Audio or Video}のような単一のレスポンス内で、ペアワイズモード 'Text + X' を生成することに制限されている。
この制限に対処するために、新しい効率的なAny-to-Many Modalities Generation (AMMG)フレームワークであるSpiderを導入し、Text + {Image and Audio and Video}のような「Text + Xs」の任意の組み合わせを生成する。
効率的なAMMGを実現するために,我々のスパイダーは,基本的なX-to-X(Any-Any)モダリティ処理のためのベースモデル,マルチモーダルデコーダを制御してXs(many-modal)コンテンツを生成するための効率的なデコーダコントローラ,Xs信号プロンプトを生成するために設計されたAny-to-Manyインストラクションテンプレートの3つのコアコンポーネントを統合した。
Spiderを訓練するために, AMMGに必要なX-to-X(すなわちAny-to-Many)能力の学習を容易にする, テキスト形式のMulti-Modal(TMM)データセットを構築した。
最終的に、よく訓練されたクモは擬似的なX-to-Xsデータセット(X-to-Xs多モードデータセット)を生成し、将来の研究におけるAMMGタスクの可能性を高める。
全体として、この作業はマルチモーダル相互作用の境界を押し上げるだけでなく、フィールドを前進させるためのリッチなデータサポートも提供する。
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich
Document Understanding [34.42574051786547]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、視覚的にリッチな文書理解タスクのためのSOTA性能を達成している。
視覚的に豊富な文書理解のための言語障壁を橋渡しすることを目的とした多言語文書理解のためのマルチモーダル事前訓練モデルを提示する。
論文 参考訳(メタデータ) (2021-04-18T12:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。