論文の概要: MoAI: Mixture of All Intelligence for Large Language and Vision Models
- arxiv url: http://arxiv.org/abs/2403.07508v1
- Date: Tue, 12 Mar 2024 10:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:04:39.381684
- Title: MoAI: Mixture of All Intelligence for Large Language and Vision Models
- Title(参考訳): MoAI: 大規模言語と視覚モデルのための全知の混合
- Authors: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
- Abstract要約: Mixture of All Intelligence (MoAI)は、命令調整型大規模言語および視覚モデル(LLVM)である。
MoAIは外部セグメンテーション、検出、SGG、OCRモデルの出力から得られる補助的な視覚情報を使用する。
MoAIは、多数のゼロショットビジョン言語(VL)タスクにおいて、オープンソースとクローズドソースのLLVMの両方を著しく上回っている。
- 参考スコア(独自算出の注目度): 46.08081488234337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large language models (LLMs) and instruction tuning has led to
the current trend of instruction-tuned large language and vision models
(LLVMs). This trend involves either meticulously curating numerous instruction
tuning datasets tailored to specific objectives or enlarging LLVMs to manage
vast amounts of vision language (VL) data. However, current LLVMs have
disregarded the detailed and comprehensive real-world scene understanding
available from specialized computer vision (CV) models in visual perception
tasks such as segmentation, detection, scene graph generation (SGG), and
optical character recognition (OCR). Instead, the existing LLVMs rely mainly on
the large capacity and emergent capabilities of their LLM backbones. Therefore,
we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages
auxiliary visual information obtained from the outputs of external
segmentation, detection, SGG, and OCR models. MoAI operates through two newly
introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the
outputs of the external CV models, the MoAI-Compressor aligns and condenses
them to efficiently use relevant auxiliary visual information for VL tasks.
MoAI-Mixer then blends three types of intelligence (1) visual features, (2)
auxiliary features from the external CV models, and (3) language features by
utilizing the concept of Mixture of Experts. Through this integration, MoAI
significantly outperforms both open-source and closed-source LLVMs in numerous
zero-shot VL tasks, particularly those related to real-world scene
understanding such as object existence, positions, relations, and OCR without
enlarging the model size or curating extra visual instruction tuning datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)と命令チューニングの台頭は、命令調整された大規模言語とビジョンモデル(LLVM)の現在のトレンドにつながっている。
この傾向は、特定の目的に合わせて調整された多数の命令チューニングデータセットを慎重にキュレートするか、膨大な視覚言語(VL)データを管理するためにLLVMを拡大することを含む。
しかし、現在のLLVMは、セグメンテーション、検出、シーングラフ生成(SGG)、光学文字認識(OCR)といった視覚的知覚タスクにおいて、特殊なコンピュータビジョン(CV)モデルから利用できる詳細で包括的な実世界のシーン理解を無視している。
代わりに、既存のLLVMは、主にLLMバックボーンのキャパシティと創発能力に依存している。
そこで本研究では,外部セグメンテーション,検出,sgg,ocrモデルの出力から得られる補助視覚情報を活用した新しいllvmであるmoai(mix of all intelligence)を提案する。
MoAIは新たに導入されたMoAI-CompressorとMoAI-Mixerの2つのモジュールを運用している。
外部CVモデルの出力を言語化した後、MoAI圧縮機はそれらを調整して凝縮し、VLタスクに関連のある視覚情報を効率的に利用する。
次にmoai-mixerは、3種類の知性(1)視覚的特徴、(2)外部cvモデルからの補助的特徴、(3)専門家の混合概念を利用して言語的特徴をブレンドする。
この統合を通じて、MoAIは、多数のゼロショットVLタスク、特にオブジェクトの存在、位置、関係、OCRといった現実世界のシーン理解に関連するタスクにおいて、モデルサイズを拡大したり、余分なビジュアルインストラクションチューニングデータセットをキュレートしたりすることなく、オープンソースとクローズドソースのLLVMを著しく上回っている。
関連論文リスト
- DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。