論文の概要: LLMBind: A Unified Modality-Task Integration Framework
- arxiv url: http://arxiv.org/abs/2402.14891v2
- Date: Mon, 26 Feb 2024 06:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:21:20.374008
- Title: LLMBind: A Unified Modality-Task Integration Framework
- Title(参考訳): LLMBind: 統一されたModality-Task統合フレームワーク
- Authors: Bin Zhu, Peng Jin, Munan Ning, Bin Lin, Jinfa Huang, Qi Song, Junwu
Zhang, Zhenyu Tang, Mingjun Pan, Xing Zhou, Li Yuan
- Abstract要約: 本稿では,大規模言語モデルとタスク固有のトークンを結合したモータリティタスク統合のための統合フレームワークを提案する。
私たちのフレームワークは、他のモダリティタスクに容易に拡張することができ、統合AIエージェントを作成する有望な可能性を示している。
- 参考スコア(独自算出の注目度): 40.11722229017934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent progress in multimodal large language models tackles various
modality tasks, they posses limited integration capabilities for complex
multi-modality tasks, consequently constraining the development of the field.
In this work, we take the initiative to explore and propose the LLMBind, a
unified framework for modality task integration, which binds Large Language
Models and corresponding pre-trained task models with task-specific tokens.
Consequently, LLMBind can interpret inputs and produce outputs in versatile
combinations of image, text, video, and audio. Specifically, we introduce a
Mixture-of-Experts technique to enable effective learning for different
multimodal tasks through collaboration among diverse experts. Furthermore, we
create a multi-task dataset comprising 400k instruction data, which unlocks the
ability for interactive visual generation and editing tasks. Extensive
experiments show the effectiveness of our framework across various tasks,
including image, video, audio generation, image segmentation, and image
editing. More encouragingly, our framework can be easily extended to other
modality tasks, showcasing the promising potential of creating a unified AI
agent for modeling universal modalities.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの最近の進歩は様々なモダリティタスクに取り組む一方で、複雑なマルチモーダリティタスクの統合能力が制限され、その結果、フィールドの開発が制限される。
本研究では,大規模言語モデルとそれに対応するタスクモデルとをタスク固有のトークンで結合する,モダリティタスク統合のための統一フレームワークllmbindの検討と提案を行う。
その結果、llmbindは入力を解釈し、画像、テキスト、ビデオ、オーディオの多彩な組み合わせで出力を生成することができる。
具体的には,多様な専門家のコラボレーションを通じて,多様なマルチモーダルタスクを効果的に学習するためのMixture-of-Experts手法を提案する。
さらに,400k命令データからなるマルチタスクデータセットを作成し,インタラクティブなビジュアル生成と編集の機能を開放する。
広範な実験により,画像,映像,音声生成,画像分割,画像編集など,さまざまなタスクにおけるフレームワークの有効性が示された。
より奨励的に、我々のフレームワークは他のモダリティタスクにも容易に拡張でき、普遍的なモダリティをモデル化するための統合AIエージェントを作成する可能性を示している。
関連論文リスト
- Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。
AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する
我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文 参考訳(メタデータ) (2023-09-27T22:50:51Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。