Fugu-MT 論文翻訳(概要): MoVA: Adapting Mixture of Vision Experts to Multimodal Context

論文の概要: MoVA: Adapting Mixture of Vision Experts to Multimodal Context

arxiv url: http://arxiv.org/abs/2404.13046v1
Date: Fri, 19 Apr 2024 17:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 14:16:48.938414
Title: MoVA: Adapting Mixture of Vision Experts to Multimodal Context
Title（参考訳）: MoVA: ビジョンエキスパートの混在をマルチモーダルコンテキストに適用する
Authors: Zhuofan Zong, Bingqi Ma, Dazhong Shen, Guanglu Song, Hao Shao, Dongzhi Jiang, Hongsheng Li, Yu Liu,
Abstract要約: 我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
参考スコア（独自算出の注目度）: 38.8308841469793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the key component in multimodal large language models (MLLMs), the ability of the visual encoder greatly affects MLLM's understanding on diverse image content. Although some large-scale pretrained vision encoders such as vision encoders in CLIP and DINOv2 have brought promising performance, we found that there is still no single vision encoder that can dominate various image content understanding, e.g., the CLIP vision encoder leads to outstanding results on general image understanding but poor performance on document or chart content. To alleviate the bias of CLIP vision encoder, we first delve into the inherent behavior of different pre-trained vision encoders and then propose the MoVA, a powerful and novel MLLM, adaptively routing and fusing task-specific vision experts with a coarse-to-fine mechanism. In the coarse-grained stage, we design a context-aware expert routing strategy to dynamically select the most suitable vision experts according to the user instruction, input image, and expertise of vision experts. This benefits from the powerful model function understanding ability of the large language model (LLM) equipped with expert-routing low-rank adaptation (LoRA). In the fine-grained stage, we elaborately conduct the mixture-of-vision-expert adapter (MoV-Adapter) to extract and fuse task-specific knowledge from various experts. This coarse-to-fine paradigm effectively leverages representations from experts based on multimodal context and model expertise, further enhancing the generalization ability. We conduct extensive experiments to evaluate the effectiveness of the proposed approach. Without any bells and whistles, MoVA can achieve significant performance gains over current state-of-the-art methods in a wide range of challenging multimodal benchmarks. Codes and models will be available at https://github.com/TempleX98/MoVA.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)の主要なコンポーネントとして、視覚エンコーダの能力はMLLMの多様な画像内容に対する理解に大きな影響を及ぼす。 CLIP や DINOv2 の視覚エンコーダのような大規模事前学習型視覚エンコーダは有望な性能をもたらしたが、CLIP の視覚エンコーダは一般的な画像理解では優れた結果をもたらすが、文書やチャートコンテンツでは性能が劣る。 CLIPビジョンエンコーダのバイアスを軽減するために、まず異なる事前訓練されたビジョンエンコーダの固有の振る舞いを探索し、次に、粗い機構でタスク固有のビジョンエキスパートを適応的にルーティングし、融合させる、強力で斬新なMLLMであるMoVAを提案する。粗粒化段階において、ユーザ命令、入力画像、および視覚専門家の専門知識に応じて、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。これは、エキスパートルーティングローランク適応(LoRA)を備えた大規模言語モデル(LLM)の強力なモデル関数理解能力の恩恵を受ける。粒度の細かい段階では、様々な専門家からタスク固有の知識を抽出・融合するために、Mix-of-vision-Expert Adapter(MoV-Adapter)を精巧に実施する。この粗粒度パラダイムは、マルチモーダルコンテキストとモデル専門知識に基づく専門家の表現を効果的に活用し、一般化能力をさらに強化する。提案手法の有効性を評価するため,広範囲な実験を行った。ベルやホイッスルがなければ、MoVAは様々な挑戦的なマルチモーダルベンチマークにおいて、現在の最先端の手法よりも大きなパフォーマンス向上を達成することができる。コードとモデルはhttps://github.com/TempleX98/MoVA.comから入手できる。

関連論文リスト

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization [87.26383908243878]
マルチモーダル大言語モデルにおける視覚エンコーダは,その高密度な特徴表現に欠けていることを示す。本稿では,協調学習のための新しいマルチタスクフレームワークであるVersaViTを提案する。
論文参考訳（メタデータ） (2026-02-10T16:08:19Z)
Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model [1.3663057923522652]
本稿では,新しいビジョンタワーフレームワークであるFusion to Enhance (FtZ)を紹介する。 FtZは、意味的に強力なアンカーエンコーダと知覚に富んだ拡張エンコーダを革新的に構成することで、シングルエンコーダ設計を越えている。この研究は、異種の専門家エンコーダを構成することが、現在のMLLMにおける視覚的認知ボトルネックを克服するための効率的かつ効果的な経路であることを証明している。
論文参考訳（メタデータ） (2025-08-31T02:22:57Z)
Mixpert: Mitigating Multimodal Learning Conflicts with Efficient Mixture-of-Vision-Experts [104.73983712940816]
マルチモーダル大言語モデル(MLLM)は複雑な画像情報のニュアンス解釈を必要とする。多様なタスクドメインを扱うために、単一のビジョンエンコーダにのみ依存することは、困難であり、必然的に衝突につながることを証明します。単一ビジョンエンコーダからジョイントラーニングの利点を継承する,効率的なミキシング・オブ・ビジョン・エキスパートアーキテクチャであるMixpertを導入する。
論文参考訳（メタデータ） (2025-05-30T12:48:07Z)
ToVE: Efficient Vision-Language Learning via Knowledge Transfer from Vision Experts [29.446235941754345]
視覚言語(VL)学習は、広範囲な視覚知覚能力を必要とする。最近の研究は通常、これらの機能を開発するために、巨大なデータセット上の巨大なモデルをトレーニングすることに頼っている。本稿では,ビジョンエキスパートのハブから知識を伝達する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-01T12:02:40Z)
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [53.13731845500678]
本稿では、視覚エンコーダの事前知識がMLLMの性能に与える影響を定量化するために、新しい計量である$Rank_e$を導入する。視覚エンコーダレベルで事前知識を明示的に組み込んだ2段階トレーニングフレームワークであるVisPREを提案する。実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-03-23T11:33:09Z)
MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing [2.0249250133493195]
マルチモーダル言語モデル(MLM)は、視覚エンコーダと大きな言語モデルとを特定のアダプタを介して結合することにより、視覚情報とテキスト情報を統合する。我々は、複数の事前学習されたエンコーダを特殊タスクに活用するMOVE(Mixture of Visions)を提案する。
論文参考訳（メタデータ） (2025-02-21T11:05:30Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文参考訳（メタデータ） (2024-08-28T17:59:31Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。視覚エンコーダに直接質問認識を埋め込む。この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文参考訳（メタデータ） (2024-02-08T08:03:39Z)
MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文参考訳（メタデータ） (2024-01-30T18:09:11Z)
M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition [39.92547393649842]
これらの課題に対処するために,新しいMultimodal,Multi-task CLIP適応フレームワークの名前付きフレームワークを導入する。ゼロショットシナリオにおける強力な一般化を維持しつつ、教師あり学習における例外的な性能を示す。
論文参考訳（メタデータ） (2024-01-22T02:03:31Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。