論文の概要: LLMBind: A Unified Modality-Task Integration Framework
- arxiv url: http://arxiv.org/abs/2402.14891v1
- Date: Thu, 22 Feb 2024 12:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:53:19.063769
- Title: LLMBind: A Unified Modality-Task Integration Framework
- Title(参考訳): LLMBind: 統一されたModality-Task統合フレームワーク
- Authors: Bin Zhu, Peng Jin, Munan Ning, Bin Lin, Jinfa Huang, Qi Song, Mingjun
Pan, Li Yuan
- Abstract要約: 本稿では,大規模言語モデルとタスク固有のトークンを結合したモータリティタスク統合のための統合フレームワークを提案する。
私たちのフレームワークは、他のモダリティタスクに容易に拡張することができ、統合AIエージェントを作成する有望な可能性を示している。
- 参考スコア(独自算出の注目度): 39.715863207102146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent progress in multimodal large language models tackles various
modality tasks, they posses limited integration capabilities for complex
multi-modality tasks, consequently constraining the development of the field.
In this work, we take the initiative to explore and propose the LLMBind, a
unified framework for modality task integration, which binds Large Language
Models and corresponding pre-trained task models with task-specific tokens.
Consequently, LLMBind can interpret inputs and produce outputs in versatile
combinations of image, text, video, and audio. Specifically, we introduce a
Mixture-of-Experts technique to enable effective learning for different
multimodal tasks through collaboration among diverse experts. Furthermore, we
create a multi-task dataset comprising 400k instruction data, which unlocks the
ability for interactive visual generation and editing tasks. Extensive
experiments show the effectiveness of our framework across various tasks,
including image, video, audio generation, image segmentation, and image
editing. More encouragingly, our framework can be easily extended to other
modality tasks, showcasing the promising potential of creating a unified AI
agent for modeling universal modalities.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの最近の進歩は様々なモダリティタスクに取り組む一方で、複雑なマルチモーダリティタスクの統合能力が制限され、その結果、フィールドの開発が制限される。
本研究では,大規模言語モデルとそれに対応するタスクモデルとをタスク固有のトークンで結合する,モダリティタスク統合のための統一フレームワークllmbindの検討と提案を行う。
その結果、llmbindは入力を解釈し、画像、テキスト、ビデオ、オーディオの多彩な組み合わせで出力を生成することができる。
具体的には,多様な専門家のコラボレーションを通じて,多様なマルチモーダルタスクを効果的に学習するためのMixture-of-Experts手法を提案する。
さらに,400k命令データからなるマルチタスクデータセットを作成し,インタラクティブなビジュアル生成と編集の機能を開放する。
広範な実験により,画像,映像,音声生成,画像分割,画像編集など,さまざまなタスクにおけるフレームワークの有効性が示された。
より奨励的に、我々のフレームワークは他のモダリティタスクにも容易に拡張でき、普遍的なモダリティをモデル化するための統合AIエージェントを作成する可能性を示している。
関連論文リスト
- PUMA: Empowering Unified MLLM with Multi-granular Visual Generation [62.747751204215916]
統一MLLMと多言語視覚生成を併用したPUMAを提案する。
PUMAはMLLMの入力と出力の両方としてマルチグラニュラ視覚特徴を統一する。
この研究は、様々な視覚的タスクの粒度要求に適応できる真に統一されたMLLMに向けた重要なステップである。
論文 参考訳(メタデータ) (2024-10-17T17:59:57Z) - UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model [11.885204227946549]
統一表現を用いて様々なタスクを表現するために設計された包括的モデルを提案する。
本モデルは,ユーザ指示の暗黙的な意図を理解する上で,強力な能力を示す。
私たちのアプローチは、例外的なスケーラビリティと汎用性を示します。
論文 参考訳(メタデータ) (2024-08-05T14:27:39Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。