論文の概要: jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images
- arxiv url: http://arxiv.org/abs/2412.08802v1
- Date: Wed, 11 Dec 2024 22:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:56.076091
- Title: jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images
- Title(参考訳): jina-clip-v2: テキストと画像のための多言語マルチモーダル埋め込み
- Authors: Andreas Koukounas, Georgios Mastrapas, Bo Wang, Mohammad Kalim Akram, Sedigheh Eslami, Michael Günther, Isabelle Mohr, Saba Sturua, Scott Martens, Nan Wang, Han Xiao,
- Abstract要約: Contrastive Language-Image Pretraining (CLIP) は、画像とテキストを共有埋め込み空間で整列する非常に効果的な方法である。
CLIPモデルはテキストのみのタスクに苦しむことが多く、特殊なテキストモデルに比べてパフォーマンスが劣る。
本研究では,従来のモデルであるjina-clip-v1に基づいて,マルチタスク,マルチステージのコントラスト学習を多言語で実現した改良フレームワークを提案する。
結果として得られたモデルであるjina-clip-v2は、テキストのみのタスクとマルチモーダルタスクで前バージョンより優れており、マルチリンガルサポート、複雑なビジュアルドキュメントの理解の向上、効率の向上などが追加されている。
- 参考スコア(独自算出の注目度): 5.587329786636647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) is a highly effective method for aligning images and texts in a shared embedding space. These models are widely used for tasks such as cross-modal information retrieval and multi-modal understanding. However, CLIP models often struggle with text-only tasks, underperforming compared to specialized text models. This performance disparity forces retrieval systems to rely on separate models for text-only and multi-modal tasks. In this work, we build upon our previous model, jina-clip-v1, by introducing a refined framework that utilizes multi-task, multi-stage contrastive learning across multiple languages, coupled with an improved training recipe to enhance text-only retrieval. The resulting model, jina-clip-v2, outperforms its predecessor on text-only and multimodal tasks, while adding multilingual support, better understanding of complex visual documents and efficiency gains thanks to Matryoshka Representation Learning and vector truncation. The model performs comparably to the state-of-the-art in both multilingual-multimodal and multilingual text retrieval benchmarks, addressing the challenge of unifying text-only and multi-modal retrieval systems.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) は、画像とテキストを共有埋め込み空間で整列する非常に効果的な方法である。
これらのモデルは、クロスモーダル情報検索やマルチモーダル理解といったタスクに広く利用されている。
しかし、CLIPモデルはテキストのみのタスクに苦しむことが多く、特殊なテキストモデルに比べてパフォーマンスが劣る。
この性能格差により、検索システムはテキストのみのタスクとマルチモーダルタスクの別々のモデルに頼らざるを得なくなる。
本研究では,複数言語にまたがるマルチタスク・マルチステージコントラスト学習と,テキストのみの検索を改良した学習レシピを組み合わせることで,従来のモデルであるjina-clip-v1を構築した。
結果として得られたモデルであるjina-clip-v2は、テキストのみのタスクとマルチモーダルタスクで前バージョンを上回り、マルチリンガルサポートの追加、複雑なビジュアルドキュメントの理解の向上、Matryoshka Representation Learningとベクトルトランケーションのおかげで効率の向上を実現している。
このモデルは、多言語・多言語テキスト検索ベンチマークと多言語テキスト検索ベンチマークの両方において最先端に比較可能であり、テキストのみと多言語検索システムの統合という課題に対処する。
関連論文リスト
- ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文 参考訳(メタデータ) (2025-03-01T03:29:02Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval [10.603148564713518]
汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。
画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを導入する。
第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。
論文 参考訳(メタデータ) (2024-06-06T17:37:47Z) - Jina CLIP: Your CLIP Model Is Also Your Text Retriever [5.110454439882224]
Contrastive Language-Image Pretraining (CLIP) は、一般的な埋め込み空間における画像とテキストを固定サイズのベクトルにマッピングすることで、モデルをトレーニングするために広く使われている。
本稿では,この問題に対処する新しいマルチタスクコントラストトレーニング手法を提案し,テキスト画像とテキストテキスト検索の両タスクにおける最先端性能を実現するために,jina-clip-v1モデルをトレーニングするために使用する。
論文 参考訳(メタデータ) (2024-05-30T16:07:54Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。