Fugu-MT 論文翻訳(概要): MammothModa: Multi-Modal Large Language Model

論文の概要: MammothModa: Multi-Modal Large Language Model

arxiv url: http://arxiv.org/abs/2406.18193v1
Date: Wed, 26 Jun 2024 09:17:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 13:59:06.939975
Title: MammothModa: Multi-Modal Large Language Model
Title（参考訳）: MammothModa: マルチモーダル大規模言語モデル
Authors: Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang,
Abstract要約: MammothModaは、Multi-modal large language model(MLLM)である。 MammothModaは、例えばLLaVAシリーズのような最先端のモデルを、ベルやホイッスルのない主要な実世界のビジュアル言語ベンチマークで一貫して上回っている。
参考スコア（独自算出の注目度）: 17.98445238232718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this report, we introduce MammothModa, yet another multi-modal large language model (MLLM) designed to achieve state-of-the-art performance starting from an elementary baseline. We focus on three key design insights: (i) Integrating Visual Capabilities while Maintaining Complex Language Understanding: In addition to the vision encoder, we incorporated the Visual Attention Experts into the LLM to enhance its visual capabilities. (ii) Extending Context Window for High-Resolution and Long-Duration Visual Feature: We explore the Visual Merger Module to effectively reduce the token number of high-resolution images and incorporated frame position ids to avoid position interpolation. (iii) High-Quality Bilingual Datasets: We meticulously curated and filtered a high-quality bilingual multimodal dataset to reduce visual hallucinations. With above recipe we build MammothModa that consistently outperforms the state-of-the-art models, e.g., LLaVA-series, across main real-world visual language benchmarks without bells and whistles.
Abstract（参考訳）: 本稿では,MammothModaについて紹介する。MammothModaは,基本となるベースラインから,最先端のパフォーマンスを実現するために設計されたマルチモーダル大規模言語モデル(MLLM)である。私たちは3つの重要なデザインの洞察に焦点を当てています。 (i)複雑な言語理解を維持しながら視覚能力を統合する:視覚エンコーダに加えて、視覚能力を高めるために視覚注意エキスパートをLLMに組み込んだ。 (II)高解像度画像のトークン数とフレーム位置IDを効果的に削減し,位置補間を回避するために,ビジュアルマーガーモジュールを探索する。 3)ハイクオリティバイリンガルデータセット:視覚幻覚を減らすために,高クオリティバイリンガルマルチモーダルデータセットを慎重にキュレートし,フィルタリングした。上記のレシピを使ってMammothModaを構築することで、最先端のモデル、例えばLLaVAシリーズを、ベルやホイッスルを使わずに、主要な実世界のビジュアル言語ベンチマークで一貫して上回ります。

関連論文リスト

Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文参考訳（メタデータ） (2025-05-08T20:04:27Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.40705814904898]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文参考訳（メタデータ） (2024-08-09T03:25:42Z)
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。 MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文参考訳（メタデータ） (2024-06-25T17:55:11Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文参考訳（メタデータ） (2023-11-13T18:59:47Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (2022-08-22T16:55:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。