論文の概要: OmniFusion Technical Report
- arxiv url: http://arxiv.org/abs/2404.06212v1
- Date: Tue, 9 Apr 2024 11:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:00:05.070791
- Title: OmniFusion Technical Report
- Title(参考訳): オムニフュージョン技術報告
- Authors: Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva, Matvey Skripkin, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov,
- Abstract要約: 事前訓練された大言語モデル(LLM)に基づくテキストOmniFusionモデルを提案する。
我々は、テキストとビジュアルデータの結合性を改善するために、いくつかのアーキテクチャ設計原則を評価し、比較する。
8つのビジュアル言語ベンチマークの実験では、最高のOmniFusionセットアップのトップスコアが示されています。
- 参考スコア(独自算出の注目度): 7.332426123896801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Last year, multimodal architectures served up a revolution in AI-based approaches and solutions, extending the capabilities of large language models (LLM). We propose an \textit{OmniFusion} model based on a pretrained LLM and adapters for visual modality. We evaluated and compared several architecture design principles for better text and visual data coupling: MLP and transformer adapters, various CLIP ViT-based encoders (SigLIP, InternVIT, etc.), and their fusing approach, image encoding method (whole image or tiles encoding) and two 7B LLMs (the proprietary one and open-source Mistral). Experiments on 8 visual-language benchmarks show the top score for the best OmniFusion setup in terms of different VQA tasks in comparison with open-source LLaVA-like solutions: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. We also propose a variety of situations, where OmniFusion provides highly-detailed answers in different domains: housekeeping, sightseeing, culture, medicine, handwritten and scanned equations recognition, etc. Mistral-based OmniFusion model is an open-source solution with weights, training and inference scripts available at https://github.com/AIRI-Institute/OmniFusion.
- Abstract(参考訳): 昨年、マルチモーダルアーキテクチャはAIベースのアプローチとソリューションに革命をもたらし、大規模言語モデル(LLM)の機能を拡張した。
本稿では,事前学習されたLCMと視覚的モダリティのためのアダプタをベースとした「textit{OmniFusion}」モデルを提案する。
MLPとトランスフォーマーアダプタ、様々なCLIP ViTベースのエンコーダ(SigLIP、InternVITなど)、その融合手法、画像符号化手法(全画像またはタイル符号化)、および2つの7B LLM(プロプライエタリでオープンソースのMistral)を比較検討した。
8つのビジュアル言語ベンチマークの実験では、VizWiz、Pop、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMUといったオープンソースのLLaVAライクなソリューションと比較して、さまざまなVQAタスクの観点から、最高のOmniFusionセットアップのスコアが示されている。
また, OmniFusionは, 住宅管理, 観光, 文化, 医学, 手書き, スキャンされた方程式認識など, さまざまな領域で, 詳細な回答を提供する。
MistralベースのOmniFusionモデルは、https://github.com/AIRI-Institute/OmniFusion.comで利用可能な重み、トレーニング、推論スクリプトを備えたオープンソースのソリューションである。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Ovis: Structural Embedding Alignment for Multimodal Large Language Model [41.32013722697081]
Ovisは、視覚とテキストの埋め込みを構造的に整列するように設計された新しいMLLMアーキテクチャである。
Ovisは学習可能なビジュアル埋め込みテーブルをビジュアルエンコーダのプロセスに統合する。
様々なマルチモーダルベンチマークにおける実証的な評価は、OvisがオープンソースMLLMよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-05-31T13:59:18Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。