論文の概要: Diffusion-Pretrained Dense and Contextual Embeddings
- arxiv url: http://arxiv.org/abs/2602.11151v1
- Date: Wed, 11 Feb 2026 18:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.35453
- Title: Diffusion-Pretrained Dense and Contextual Embeddings
- Title(参考訳): 拡散予知密度と文脈埋め込み
- Authors: Sedigheh Eslami, Maksim Gaiduk, Markus Krimmel, Louis Milliken, Bo Wang, Denis Bykov,
- Abstract要約: plx-embedは多言語埋め込みモデルのファミリーであり、Webスケール検索のために拡散予測言語モデルバックボーンに多段階のコントラスト学習を利用する。
標準検索用 pplx-embed-v1 とコンテキスト埋め込み用 pplx-embed-context-v1 の2つのモデルタイプをリリースする。
- 参考スコア(独自算出の注目度): 3.1271035100823643
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this report, we introduce pplx-embed, a family of multilingual embedding models that employ multi-stage contrastive learning on a diffusion-pretrained language model backbone for web-scale retrieval. By leveraging bidirectional attention through diffusion-based pretraining, our models capture comprehensive bidirectional context within passages, enabling the use of mean pooling and a late chunking strategy to better preserve global context across long documents. We release two model types: pplx-embed-v1 for standard retrieval, and pplx-embed-context-v1 for contextualized embeddings that incorporate global document context into passage representations. pplx-embed-v1 achieves competitive performance on the MTEB(Multilingual, v2), MTEB(Code), MIRACL, BERGEN, and ToolRet retrieval benchmarks, while pplx-embed-context-v1 sets new records on the ConTEB benchmark. Beyond public benchmarks, pplx-embed-v1 demonstrates strong performance on our internal evaluation suite, which focuses on real-world, large-scale search scenarios over tens of millions of documents. These results validate the models' effectiveness in production environments where retrieval quality and efficiency are critical at scale.
- Abstract(参考訳): 本稿では,Webスケール検索のための拡散予測言語モデルバックボーン上で,多段階のコントラスト学習を利用する多言語埋め込みモデルのファミリであるpplx-embedを紹介する。
拡散に基づく事前学習によって双方向の注意を生かし、われわれのモデルは通路内の包括的双方向コンテキストをキャプチャし、平均プールと遅延チャンキング戦略を用いることで、長い文書のグローバルコンテキストをよりよく保存することができる。
標準検索用 pplx-embed-v1 と,グローバルな文書コンテキストをエントリ表現に組み込んだコンテキスト化された埋め込み用 pplx-embed-context-v1 の2つのモデルタイプをリリースする。
plx-embed-v1 は MTEB(Multilingual, v2), MTEB(Code), MIRACL, BERGEN, ToolRet の検索ベンチマークで競合性能を達成し, pplx-embed-context-v1 は ConTEB ベンチマークで新しいレコードを設定する。
公開ベンチマーク以外にも、pplx-embed-v1は内部評価スイートに強力なパフォーマンスを示しています。
これらの結果は、大規模に検索品質と効率が重要となる生産環境におけるモデルの有効性を検証する。
関連論文リスト
- Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。