論文の概要: Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever
- arxiv url: http://arxiv.org/abs/2408.16672v3
- Date: Wed, 4 Sep 2024 05:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 12:43:35.620230
- Title: Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever
- Title(参考訳): Jina-ColBERT-v2: 汎用多言語対話レトリバー
- Authors: Rohan Jha, Bo Wang, Michael Günther, Georgios Mastrapas, Saba Sturua, Isabelle Mohr, Andreas Koukounas, Mohammad Kalim Akram, Nan Wang, Han Xiao,
- Abstract要約: 長いコンテキストウィンドウと多言語検索をサポートする新しいアーキテクチャとトレーニングフレームワークを導入する。
我々の新しいモデルであるJina-ColBERT-v2は、英語および多言語検索タスクで高い性能を示す。
- 参考スコア(独自算出の注目度): 6.221757399678299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this paper, we introduce a novel architecture and a training framework to support long context window and multilingual retrieval. Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks,
- Abstract(参考訳): ColBERTのような多ベクトル密度モデルは情報検索に非常に有効であることが証明されている。
ColBERTの遅延相互作用評価は、クロスエンコーダで見られる共同クエリ文書の注意を近似し、二エンコーダアーキテクチャと最近のインデックス化と検索の最適化のおかげで、従来の高密度検索モデルに近い推論効率を維持している。
本稿では,長いコンテキストウィンドウと多言語検索をサポートする新しいアーキテクチャとトレーニングフレームワークを提案する。
我々の新しいモデルであるJina-ColBERT-v2は、英語と多言語検索タスクにまたがって強い性能を示す。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Beyond Two-Tower Matching: Learning Sparse Retrievable
Cross-Interactions for Recommendation [80.19762472699814]
2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。
機能間相互作用の制限と、オンラインサービスにおける精度の低下など、主な課題が2つある。
我々は,高度な機能相互作用だけでなく,効率的な検索もサポートするSparCodeという新しいマッチングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-30T03:13:36Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized
Late Interactions using Enhanced Reduction [10.749746283569847]
ColBERTerは、文脈化された遅延相互作用(ColBERT)と強化されたリダクションを用いたニューラル検索モデルである。
マルチベクタコンポーネントのために、ColBERTerは、各ドキュメントの用語に対するユニークな全ワード表現を学習することで、ドキュメントごとの格納数を減らす。
MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。
論文 参考訳(メタデータ) (2022-03-24T14:28:07Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。