論文の概要: Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings
- arxiv url: http://arxiv.org/abs/2505.24782v1
- Date: Fri, 30 May 2025 16:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.080013
- Title: Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings
- Title(参考訳): コンテキストは金のパスを見つけるための金である - コンテキスト文書の埋め込みを評価して訓練する
- Authors: Max Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo,
- Abstract要約: 本研究では,文書ワイドコンテキストを利用した検索モデルの評価を行うためのベンチマークであるConTEBを紹介する。
以上の結果から,最先端の埋め込みモデルは,コンテキストが必要な検索シナリオで苦労していることがわかった。
InSeNTは、遅延チャンキングプーリングと組み合わせることで文脈表現学習が促進される、新しい対照的なポストトレーニング手法である。
- 参考スコア(独自算出の注目度): 25.966475857117175
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A limitation of modern document retrieval embedding methods is that they typically encode passages (chunks) from the same documents independently, often overlooking crucial contextual information from the rest of the document that could greatly improve individual chunk representations. In this work, we introduce ConTEB (Context-aware Text Embedding Benchmark), a benchmark designed to evaluate retrieval models on their ability to leverage document-wide context. Our results show that state-of-the-art embedding models struggle in retrieval scenarios where context is required. To address this limitation, we propose InSeNT (In-sequence Negative Training), a novel contrastive post-training approach which combined with late chunking pooling enhances contextual representation learning while preserving computational efficiency. Our method significantly improves retrieval quality on ConTEB without sacrificing base model performance. We further find chunks embedded with our method are more robust to suboptimal chunking strategies and larger retrieval corpus sizes. We open-source all artifacts at https://github.com/illuin-tech/contextual-embeddings.
- Abstract(参考訳): 現代の文書検索の埋め込み手法の制限は、通常、同じ文書からの通過(チャンク)を独立に符号化し、個々のチャンク表現を大幅に改善できる文書の他の部分から重要なコンテキスト情報を見渡すことである。
本研究では,ConTEB (Context-aware Text Embedding Benchmark) を提案する。
以上の結果から,最先端の埋め込みモデルは,コンテキストが必要な検索シナリオで苦労していることがわかった。
この制限に対処するために,遅延チャンキングプーリングと組み合わせることで,計算効率を保ちながら文脈表現学習を促進させる,新しいコントラスト学習手法であるInSeNT(In-sequence Negative Training)を提案する。
提案手法は,ベースモデルの性能を犠牲にすることなく,ConTEBの検索品質を大幅に向上させる。
さらに,提案手法に埋め込まれたチャンクは,最適下チャンク戦略やより大きな検索コーパスサイズに対してより堅牢であることがわかった。
私たちはすべてのアーティファクトをhttps://github.com/illuin-tech/contextual-embeddingsでオープンソースにしています。
関連論文リスト
- GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。
一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。
我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。