論文の概要: MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing
- arxiv url: http://arxiv.org/abs/2502.15381v1
- Date: Fri, 21 Feb 2025 11:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:06:49.624388
- Title: MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing
- Title(参考訳): MOVE: ドメイン焦点ビジョンランゲージ処理のための混合ビジョンエンコーダアプローチ
- Authors: Matvey Skripkin, Elizaveta Goncharova, Dmitrii Tarasov, Andrey Kuznetsov,
- Abstract要約: マルチモーダル言語モデル(MLM)は、視覚エンコーダと大きな言語モデルとを特定のアダプタを介して結合することにより、視覚情報とテキスト情報を統合する。
我々は、複数の事前学習されたエンコーダを特殊タスクに活用するMOVE(Mixture of Visions)を提案する。
- 参考スコア(独自算出の注目度): 2.0249250133493195
- License:
- Abstract: Multimodal language models (MLMs) integrate visual and textual information by coupling a vision encoder with a large language model through the specific adapter. While existing approaches commonly rely on a single pre-trained vision encoder, there is a great variability of specialized encoders that can boost model's performance in distinct domains. In this work, we propose MOVE (Mixture of Vision Encoders) a simple yet effective approach to leverage multiple pre-trained encoders for specialized multimodal tasks. MOVE automatically routes inputs to the most appropriate encoder among candidates such as Unichat, InternViT, and Texify, thereby enhancing performance across a diverse set of benchmarks, including ChartQA, MMBench, and MMMU. Experimental results demonstrate that MOVE achieves competitive accuracy without incurring the complexities of image slicing for high-resolution images.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)は、視覚エンコーダと大きな言語モデルとを特定のアダプタを介して結合することにより、視覚情報とテキスト情報を統合する。
既存のアプローチは、通常、1つの事前訓練されたビジョンエンコーダに頼っているが、モデルの性能を異なるドメインで向上できる特別なエンコーダの多様性は大きい。
そこで本研究では,MOVE(Mixture of Vision Encoders)を提案する。
MOVEは、Unichat、InternViT、Texifyなどの候補の中で、入力を最も適切なエンコーダに自動的にルーティングし、ChartQA、MMBench、MMMUなどの様々なベンチマークで性能を向上させる。
実験結果から,MOVEは高解像度画像に対する画像スライシングの複雑さを生じさせることなく,競争精度が向上することが示された。
関連論文リスト
- Optimizing Vision-Language Interactions Through Decoder-Only Models [4.219163079329444]
MUDAIFは視覚とテキストの入力をシームレスに統合する視覚言語モデルである。
効率性、柔軟性、クロスモーダルな理解が向上します。
45Mイメージテキストペアの大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-12-14T09:04:32Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。