論文の概要: ParGo: Bridging Vision-Language with Partial and Global Views
- arxiv url: http://arxiv.org/abs/2408.12928v1
- Date: Fri, 23 Aug 2024 09:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:40:04.894175
- Title: ParGo: Bridging Vision-Language with Partial and Global Views
- Title(参考訳): ParGo: 部分ビューとグローバルビューを備えたブリッジングビジョンランゲージ
- Authors: An-Lan Wang, Bin Shan, Wei Shi, Kun-Yu Lin, Xiang Fei, Guozhi Tang, Lei Liao, Jingqun Tang, Can Huang, Wei-Shi Zheng,
- Abstract要約: マルチモーダル大言語モデル(MLLM)のビジョンと言語モダリティを接続する新しい部分言語プロジェクタであるParGoを紹介する。
グローバルアテンションベースのプロジェクタに依存する従来の作業とは異なり、ParGoは個別に訓練された視覚エンコーダとLLMの間の表現ギャップを橋渡しします。
実験の結果,ParGoは他のプロジェクタよりも優れており,特に知覚能力の細部を重視したタスクでは顕著に優れていた。
- 参考スコア(独自算出の注目度): 34.22704458758528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents ParGo, a novel Partial-Global projector designed to connect the vision and language modalities for Multimodal Large Language Models (MLLMs). Unlike previous works that rely on global attention-based projectors, our ParGo bridges the representation gap between the separately pre-trained vision encoders and the LLMs by integrating global and partial views, which alleviates the overemphasis on prominent regions. To facilitate the effective training of ParGo, we collect a large-scale detail-captioned image-text dataset named ParGoCap-1M-PT, consisting of 1 million images paired with high-quality captions. Extensive experiments on several MLLM benchmarks demonstrate the effectiveness of our ParGo, highlighting its superiority in aligning vision and language modalities. Compared to conventional Q-Former projector, our ParGo achieves an improvement of 259.96 in MME benchmark. Furthermore, our experiments reveal that ParGo significantly outperforms other projectors, particularly in tasks that emphasize detail perception ability.
- Abstract(参考訳): この研究は、多モーダル大言語モデル(MLLM)のビジョンと言語モダリティを結びつけるために設計された、新しい部分言語プロジェクタであるParGoを提示する。
従来のグローバルアテンションベースのプロジェクタに依存した作業とは異なり、ParGoは、個別に訓練された視覚エンコーダとLLM間の表現ギャップをグローバルビューと部分ビューを統合することで橋渡しし、顕著な領域でのオーバーエンハンシスを軽減する。
ParGoの効果的なトレーニングを容易にするため,ParGoCap-1M-PTという画像テキストデータセットを大規模に収集した。
いくつかのMLLMベンチマークでの大規模な実験は、ParGoの有効性を示し、ビジョンと言語モダリティの整合性においてその優位性を強調している。
従来のQ-Formerプロジェクタと比較して、ParGoはMMEベンチマークで259.96の改善を実現しています。
さらに,ParGoは他のプロジェクターよりも優れており,特に知覚能力の細部を重視したタスクでは顕著に優れていた。
関連論文リスト
- Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。
MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。
市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文 参考訳(メタデータ) (2024-12-02T09:02:28Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models [28.019592576500113]
本研究では,MLLM内の視覚言語意味の流れを解釈し,プロジェクタモジュールについて検討する。
その結果,圧縮プロジェクタはオブジェクトや属性などの限られた意味概念の集合に視覚パッチを抽象化し,結果として「二重抽象化」現象が生じることがわかった。
本稿では,プロジェクタによるパッチレベルで視覚トークン番号を圧縮する「抽象化からのデカップル圧縮(Decouple Compression from Abstraction, DeCo)」について,重要な知見を提案する。
論文 参考訳(メタデータ) (2024-05-31T16:31:38Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。