論文の概要: BREEN: Bridge Data-Efficient Encoder-Free Multimodal Learning with Learnable Queries
- arxiv url: http://arxiv.org/abs/2503.12446v1
- Date: Sun, 16 Mar 2025 10:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:10.211739
- Title: BREEN: Bridge Data-Efficient Encoder-Free Multimodal Learning with Learnable Queries
- Title(参考訳): BREEN: 学習可能なクエリによるデータ効率の良いエンコーダなしマルチモーダル学習
- Authors: Tianle Li, Yongming Rao, Winston Hu, Yu Cheng,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、言語モデルの前に画像トークンを直接処理することで、よく訓練された視覚エンコーダの必要性をなくす。
視覚エンコーダが存在しないことは、モデルが必要な視覚的・意味的なアライメントを学習するために、かなりのデータに依存する可能性が高いことを示唆している。
この問題を緩和するデータ効率のよいエンコーダフリーマルチモーダルアーキテクチャであるBREENを提案する。
- 参考スコア(独自算出の注目度): 37.37905881898424
- License:
- Abstract: Encoder-free multimodal large language models(MLLMs) eliminate the need for a well-trained vision encoder by directly processing image tokens before the language model. While this approach reduces computational overhead and model complexity, it often requires large amounts of training data to effectively capture the visual knowledge typically encoded by vision models like CLIP. The absence of a vision encoder implies that the model is likely to rely on substantial data to learn the necessary visual-semantic alignments. In this work, we present BREEN, a data-efficient encoder-free multimodal architecture that mitigates this issue. BREEN leverages a learnable query and image experts to achieve comparable performance with significantly less training data. The learnable query, positioned between image and text tokens, is supervised by the output of a pretrained CLIP model to distill visual knowledge, bridging the gap between visual and textual modalities. Additionally, the image expert processes image tokens and learnable queries independently, improving efficiency and reducing interference with the LLM's textual capabilities. BREEN achieves comparable performance to prior encoder-free state-of-the-art models like Mono-InternVL, using only 13 million text-image pairs in training about one percent of the data required by existing methods. Our work highlights a promising direction for data-efficient encoder-free multimodal learning, offering an alternative to traditional encoder-based approaches.
- Abstract(参考訳): Encoder-free multimodal large language model (MLLM) は、言語モデルの前に画像トークンを直接処理することで、十分に訓練された視覚エンコーダを必要としない。
このアプローチは計算オーバーヘッドとモデルの複雑さを減らすが、CLIPのようなビジョンモデルによって符号化される視覚的知識を効果的に捉えるために、大量のトレーニングデータを必要とすることが多い。
視覚エンコーダが存在しないことは、モデルが必要な視覚的・意味的なアライメントを学習するために、かなりのデータに依存する可能性が高いことを示唆している。
本研究では,この問題を緩和するデータ効率のよいエンコーダフリーマルチモーダルアーキテクチャであるBREENを提案する。
BREENは学習可能なクエリとイメージエキスパートを活用して、トレーニングデータを大幅に削減して、同等のパフォーマンスを実現する。
学習可能なクエリは、画像とテキストトークンの間に位置するが、事前訓練されたCLIPモデルの出力によって教師され、視覚的知識を蒸留し、視覚的モダリティとテキスト的モダリティのギャップを埋める。
さらに、画像専門家は画像トークンと学習可能なクエリを独立して処理し、効率を改善し、LLMのテキスト機能への干渉を減らす。
BREENは、Mono-InternVLのような従来のエンコーダフリーの最先端モデルに匹敵するパフォーマンスを実現している。
我々の研究は、従来のエンコーダベースのアプローチに代わるものとして、データ効率のよいエンコーダなしマルチモーダル学習の有望な方向性を強調している。
関連論文リスト
- From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
視覚的エンコーダの分離に依存する従来の手法とは異なり,本手法では構造的事前情報を画像トークンに直接組み込む。
この革新的なアプローチにより、Transformerモデルはモダリティをより効果的に学習し、推論することができる。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。