論文の概要: FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
- arxiv url: http://arxiv.org/abs/2506.03096v1
- Date: Tue, 03 Jun 2025 17:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.449652
- Title: FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
- Title(参考訳): FuseLIP:離散トークンの初期融合によるマルチモーダル埋め込み
- Authors: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein,
- Abstract要約: マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。
本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 56.752362642658504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive language-image pre-training aligns the features of text-image pairs in a common latent space via distinct encoders for each modality. While this approach achieves impressive performance in several zero-shot tasks, it cannot natively handle multimodal inputs, i.e., encoding image and text into a single feature vector. As a remedy, it is common practice to use additional modules to merge the features extracted by the unimodal encoders. In this work, we present FuseLIP, an alternative architecture for multimodal embedding. Leveraging recent progress in discrete image tokenizers, we propose to use a single transformer model which operates on an extended vocabulary of text and image tokens. This early fusion approach allows the different modalities to interact at each depth of encoding and obtain richer representations compared to common late fusion. We collect new datasets for multimodal pre-training and evaluation, designing challenging tasks for multimodal encoder models. We show that FuseLIP outperforms other approaches in multimodal embedding tasks such as VQA and text-guided image transformation retrieval, while being comparable to baselines on unimodal tasks.
- Abstract(参考訳): 対照的な言語イメージ事前学習は、各モダリティの異なるエンコーダを介して、共通の潜在空間におけるテキストイメージペアの特徴を整列させる。
このアプローチは、いくつかのゼロショットタスクにおいて印象的なパフォーマンスを達成するが、ネイティブにマルチモーダル入力、すなわち画像とテキストを単一の特徴ベクトルに符号化する処理はできない。
対策として、ユニモーダルエンコーダによって抽出された機能をマージするために追加モジュールを使用するのが一般的である。
本稿では,マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
近年の離散画像トークン化技術の進歩を生かして,テキストおよび画像トークンの拡張語彙で動作する単一トランスフォーマーモデルを提案する。
この初期の融合アプローチは、異なるモジュラリティがエンコーディングの各深さで相互作用し、一般的な後期融合と比較してよりリッチな表現を得ることを可能にする。
我々は,マルチモーダル・エンコーダモデルのための課題を設計し,マルチモーダル・プレトレーニングと評価のための新しいデータセットを収集する。
FuseLIPは、VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて、非モーダルタスクのベースラインに匹敵する性能で、他の手法よりも優れていることを示す。
関連論文リスト
- ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task [34.269081635534526]
ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。
LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
論文 参考訳(メタデータ) (2025-03-06T14:00:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Exchanging-based Multimodal Fusion with Transformer [19.398692598523454]
本稿では,マルチモーダル核融合の問題点について考察する。
近年,あるモダリティから他のモダリティへ学習した埋め込みを交換することを目的としたビジョン・ビジョン・フュージョンのための交換方式が提案されている。
本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:48:25Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。