論文の概要: MouSi: Poly-Visual-Expert Vision-Language Models
- arxiv url: http://arxiv.org/abs/2401.17221v1
- Date: Tue, 30 Jan 2024 18:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:56:40.147230
- Title: MouSi: Poly-Visual-Expert Vision-Language Models
- Title(参考訳): MouSi:多視点ビジョンランゲージモデル
- Authors: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song,
Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang,
Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui,
Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
- 参考スコア(独自算出の注目度): 132.58949014605477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.
- Abstract(参考訳): 現在の大きな視覚言語モデル(VLM)は、単一の視覚コンポーネントの能力不足や、過度に長い視覚トークンといった問題に遭遇することが多い。
これらの問題は、複雑な視覚情報と過剰なコンテキスト情報を正確に解釈するモデルの有効性を制限する可能性がある。
これらの課題に対処することは、VLMの性能と適用性を高めるために重要である。
本稿では,画像テキストマッチングやOCR,画像セグメンテーションなど,個々の視覚エンコーダの能力を相乗化するためのアンサンブルエキスパート手法を提案する。
この技術は、画像エンコーダと事前学習されたLCM間のギャップを埋めながら、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
また,長い画像特徴列による位置符号化の無駄を軽減し,位置オーバーフローや長さ制限の問題を効果的に解決するために,異なる位置符号化方式を検討する。
例えば,本実装では,SAM などのモデルにおける位置占有率を,実質的な 4096 からより効率的で管理可能な 64 へ,あるいは 1 まで大幅に低減する。
実験により、複数のエキスパートを持つVLMは、分離されたビジュアルエンコーダよりも一貫して優れた性能を示し、より多くの専門家が統合されるにつれて、大きなパフォーマンス向上を示すことが示された。
このレポートで使用されるトレーニングコードをオープンソースにしています。
これらのリソースはすべて、プロジェクトのWebサイトにある。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Jack of All Tasks, Master of Many: Designing General-purpose
Coarse-to-Fine Vision-Language Model [87.01213887685952]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing [12.930814370829893]
本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。
既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。
本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:35:20Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。