論文の概要: SwitchGPT: Adapting Large Language Models for Non-Text Outputs
- arxiv url: http://arxiv.org/abs/2309.07623v1
- Date: Thu, 14 Sep 2023 11:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:18:55.521666
- Title: SwitchGPT: Adapting Large Language Models for Non-Text Outputs
- Title(参考訳): SwitchGPT:非テキスト出力に大規模言語モデルを適用する
- Authors: Xinyu Wang, Bohan Zhuang, Qi Wu
- Abstract要約: 大規模言語モデル(LLM)は主にテキストベースのデータセットに基づいて訓練されている。
LLMは、テキスト出力による複雑な言語命令の理解と実行において、非常に優れた能力を示す。
テキストベースのLLMをマルチモーダルに進化させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 28.656227306028743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), primarily trained on text-based datasets,
exhibit exceptional proficiencies in understanding and executing complex
linguistic instructions via text outputs. However, they falter when requests to
generate non-text ones. Concurrently, modality conversion models, such as
text-to-image, despite generating high-quality images, suffer from a lack of
extensive textual pretraining. As a result, these models are only capable of
accommodating specific image descriptions rather than comprehending more
complex instructions. To bridge this gap, we propose a novel approach,
\methodname, from a modality conversion perspective that evolves a text-based
LLM into a multi-modal one. We specifically employ a minimal dataset to
instruct LLMs to recognize the intended output modality as directed by the
instructions. Consequently, the adapted LLM can effectively summon various
off-the-shelf modality conversion models from the model zoos to generate
non-text responses. This circumvents the necessity for complicated pretraining
that typically requires immense quantities of paired multi-modal data, while
simultaneously inheriting the extensive knowledge of LLMs and the ability of
high-quality generative models. To evaluate and compare the adapted multi-modal
LLM with its traditional counterparts, we have constructed a multi-modal
instruction benchmark that solicits diverse modality outputs. The experiment
results reveal that, with minimal training, LLMs can be conveniently adapted to
comprehend requests for non-text responses, thus achieving higher flexibility
in multi-modal scenarios. Code and data will be made available at
https://github.com/xinke-wang/SwitchGPT.
- Abstract(参考訳): 大規模言語モデル(llm)は主にテキストベースのデータセットで訓練され、テキスト出力による複雑な言語命令の理解と実行に非常に熟練している。
しかし、テキスト以外のものを生成するリクエストをフェールさせる。
同時に、高品質な画像を生成するにもかかわらず、テキストから画像へのモダリティ変換モデルは、広範なテキスト事前学習の欠如に苦しむ。
結果として、これらのモデルはより複雑な命令を解釈するのではなく、特定の画像記述を調節するのみである。
このギャップを埋めるために,テキストベースのllmをマルチモーダルなものに進化させるモダリティ変換の観点から,新しいアプローチである \methodname を提案する。
具体的には、最小限のデータセットを用いてLSMに命令を指示し、意図した出力のモダリティを指示によって認識する。
これにより、適応LLMはモデル動物園から様々な既製のモダリティ変換モデルを効果的に呼び出し、非テキスト応答を生成することができる。
これは、通常大量のペアのマルチモーダルデータを必要とする複雑な事前学習の必要性を回避し、llmの広範な知識と高品質な生成モデルの能力を同時に継承する。
適応型マルチモーダルllmを従来のllmと比較するために,多様なモーダル出力を求めるマルチモーダル命令ベンチマークを構築した。
実験の結果、最小限のトレーニングで、LLMは非テキスト応答の要求を理解するのに便利であり、マルチモーダルシナリオにおいて高い柔軟性を実現することができることがわかった。
コードとデータはhttps://github.com/xinke-wang/SwitchGPTで公開される。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID [44.372336186832584]
本稿では,提案する大規模データベース上でモデルをトレーニングするReID問題について検討する。
MLLM(Multi-modal Large Language Models)による訓練データを得る。
画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T10:15:04Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。
我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。
我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。