論文の概要: jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval
- arxiv url: http://arxiv.org/abs/2506.18902v2
- Date: Tue, 24 Jun 2025 15:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 13:29:37.744572
- Title: jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval
- Title(参考訳): jina-embeddings-v4:マルチモーダル多言語検索のためのユニバーサル埋め込み
- Authors: Michael Günther, Saba Sturua, Mohammad Kalim Akram, Isabelle Mohr, Andrei Ungureanu, Bo Wang, Sedigheh Eslami, Scott Martens, Maximilian Werk, Nan Wang, Han Xiao,
- Abstract要約: テキストと画像表現を統一するマルチモーダル埋め込みモデルであるjina-embeddings-v4を導入する。
このモデルにはタスク固有のローランド適応(LoRA)アダプタが組み込まれ、さまざまな検索シナリオのパフォーマンスを最適化する。
また、この機能の評価を容易にするために、視覚的にリッチな画像検索に特化した新しいベンチマークであるJina-VDRを導入する。
- 参考スコア(独自算出の注目度): 5.587329786636647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce jina-embeddings-v4, a 3.8 billion parameter multimodal embedding model that unifies text and image representations through a novel architecture supporting both single-vector and multi-vector embeddings in the late interaction style. The model incorporates task-specific Low-Rank Adaptation (LoRA) adapters to optimize performance across diverse retrieval scenarios, including query-document retrieval, semantic text similarity, and code search. Comprehensive evaluations demonstrate that jina-embeddings-v4 achieves state-of-the-art performance on both single-modal and cross-modal retrieval tasks, with particular strength in processing visually rich content such as tables, charts, diagrams, and mixed-media formats. To facilitate evaluation of this capability, we also introduce Jina-VDR, a novel benchmark specifically designed for visually rich image retrieval.
- Abstract(参考訳): 本稿では, マルチモーダル埋め込みモデルであるjina-embeddings-v4を紹介する。
このモデルにはタスク固有のローランド適応(LoRA)アダプタが組み込まれており、クエリ文書検索、セマンティックテキストの類似性、コード検索など、さまざまな検索シナリオにおけるパフォーマンスを最適化する。
総合的な評価では、jina-embeddings-v4は、単一のモーダルとクロスモーダルの両方の検索タスクで最先端のパフォーマンスを達成し、特にテーブル、チャート、ダイアグラム、ミックスメディアフォーマットなどの視覚的にリッチなコンテンツを処理できることが示されている。
また、この機能の評価を容易にするために、視覚的にリッチな画像検索に特化した新しいベンチマークであるJina-VDRを導入する。
関連論文リスト
- A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval [44.008094698200026]
クロスモーダル検索は研究コミュニティから有効性や関心が増している。
本稿では,画像とテキストの両方からなるマルチモーダルクエリを実現するアプローチを設計する。
我々のモデルであるReTは、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を用いる。
論文 参考訳(メタデータ) (2025-03-03T19:01:17Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - jina-embeddings-v3: Multilingual Embeddings With Task LoRA [6.926642162309072]
jina-embeddings-v3は5億7000万のパラメータを持つ新しいテキスト埋め込みモデルである。
多言語データと長文検索タスクで最先端のパフォーマンスを実現する。
最大8192トークンのコンテキスト長をサポートする。
論文 参考訳(メタデータ) (2024-09-16T11:10:29Z) - Localizing Events in Videos with Multimodal Queries [61.20556229245365]
セマンティッククエリに基づくビデオ内のイベントのローカライズは、ビデオ理解における重要なタスクである。
マルチモーダルクエリでビデオ中のイベントをローカライズするための新しいベンチマークであるICQを紹介する。
疑似MQs戦略における3つのマルチモーダルクエリ適応法と新しいサロゲートファインタニングを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。