論文の概要: MouSi: Poly-Visual-Expert Vision-Language Models
- arxiv url: http://arxiv.org/abs/2401.17221v1
- Date: Tue, 30 Jan 2024 18:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:56:40.147230
- Title: MouSi: Poly-Visual-Expert Vision-Language Models
- Title(参考訳): MouSi:多視点ビジョンランゲージモデル
- Authors: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song,
Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang,
Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui,
Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
- 参考スコア(独自算出の注目度): 132.58949014605477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.
- Abstract(参考訳): 現在の大きな視覚言語モデル(VLM)は、単一の視覚コンポーネントの能力不足や、過度に長い視覚トークンといった問題に遭遇することが多い。
これらの問題は、複雑な視覚情報と過剰なコンテキスト情報を正確に解釈するモデルの有効性を制限する可能性がある。
これらの課題に対処することは、VLMの性能と適用性を高めるために重要である。
本稿では,画像テキストマッチングやOCR,画像セグメンテーションなど,個々の視覚エンコーダの能力を相乗化するためのアンサンブルエキスパート手法を提案する。
この技術は、画像エンコーダと事前学習されたLCM間のギャップを埋めながら、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
また,長い画像特徴列による位置符号化の無駄を軽減し,位置オーバーフローや長さ制限の問題を効果的に解決するために,異なる位置符号化方式を検討する。
例えば,本実装では,SAM などのモデルにおける位置占有率を,実質的な 4096 からより効率的で管理可能な 64 へ,あるいは 1 まで大幅に低減する。
実験により、複数のエキスパートを持つVLMは、分離されたビジュアルエンコーダよりも一貫して優れた性能を示し、より多くの専門家が統合されるにつれて、大きなパフォーマンス向上を示すことが示された。
このレポートで使用されるトレーニングコードをオープンソースにしています。
これらのリソースはすべて、プロジェクトのWebサイトにある。
関連論文リスト
- Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。