論文の概要: SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
- arxiv url: http://arxiv.org/abs/2508.01959v1
- Date: Sun, 03 Aug 2025 23:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.132418
- Title: SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
- Title(参考訳): SitEmb-v1.5: セマンティックアソシエーションと長話理解のための文脈認識度検索の改善
- Authors: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu,
- Abstract要約: 本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 77.93156509994994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) over long documents typically involves splitting the text into smaller chunks, which serve as the basic units for retrieval. However, due to dependencies across the original document, contextual information is often essential for accurately interpreting each chunk. To address this, prior work has explored encoding longer context windows to produce embeddings for longer chunks. Despite these efforts, gains in retrieval and downstream tasks remain limited. This is because (1) longer chunks strain the capacity of embedding models due to the increased amount of information they must encode, and (2) many real-world applications still require returning localized evidence due to constraints on model or human bandwidth. We propose an alternative approach to this challenge by representing short chunks in a way that is conditioned on a broader context window to enhance retrieval performance -- i.e., situating a chunk's meaning within its context. We further show that existing embedding models are not well-equipped to encode such situated context effectively, and thus introduce a new training paradigm and develop the situated embedding models (SitEmb). To evaluate our method, we curate a book-plot retrieval dataset specifically designed to assess situated retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3 substantially outperforms state-of-the-art embedding models, including several with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model further improves performance by over 10% and shows strong results across different languages and several downstream applications.
- Abstract(参考訳): 長い文書を検索するRAG(Retrieval-augmented Generation)は、典型的にはテキストを小さなチャンクに分割し、検索の基本単位として機能する。
しかし、元のドキュメントにまたがる依存関係のため、各チャンクを正確に解釈するのにコンテキスト情報は不可欠であることが多い。
これを解決するために、以前の作業では、長いコンテキストウィンドウをエンコードして、長いチャンクに対して埋め込みを生成する方法を模索してきた。
これらの努力にもかかわらず、検索と下流タスクの増加は依然として限られている。
これは、(1) より長いチャンクがエンコードしなければならない情報量の増加により埋め込みモデルの容量を圧迫し、(2) 多くの実世界のアプリケーションは、モデルや人間の帯域幅に制約があるため、依然として局所的な証拠を返す必要があるためである。
より広いコンテキストウインドウで条件付けされた短いチャンクを表現して検索性能を高める,すなわち,チャンクの意味を文脈内に配置する,という方法を提案する。
さらに、既存の埋め込みモデルは、そのような位置コンテキストを効果的にエンコードするのに十分な装備がないことを示し、そのため、新しいトレーニングパラダイムを導入し、位置埋め込みモデル(SitEmb)を開発する。
本手法を評価するため,位置検索機能の評価に特化して設計されたブックプロット検索データセットをキュレートする。
このベンチマークでは,BGE-M3をベースとしたSitEmb-v1モデルは,最大7~8Bパラメータと1Bパラメータのみを含む,最先端の埋め込みモデルを大幅に上回っている。
我々の8B SitEmb-v1.5モデルは、さらに10%以上のパフォーマンスを改善し、異なる言語といくつかのダウンストリームアプリケーションで強力な結果を示す。
関連論文リスト
- Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings [25.966475857117175]
本研究では,文書ワイドコンテキストを利用した検索モデルの評価を行うためのベンチマークであるConTEBを紹介する。
以上の結果から,最先端の埋め込みモデルは,コンテキストが必要な検索シナリオで苦労していることがわかった。
InSeNTは、遅延チャンキングプーリングと組み合わせることで文脈表現学習が促進される、新しい対照的なポストトレーニング手法である。
論文 参考訳(メタデータ) (2025-05-30T16:43:28Z) - Dewey Long Context Embedding Model: A Technical Report [0.0]
dewey_en_betaは、MTEB(Eng, v2)およびLongEmbedベンチマーク上で優れたパフォーマンスを実現する、新しいテキスト埋め込みモデルである。
本稿では,オープンソースのdewey_en_beta埋め込みモデルのトレーニング手法と評価結果について述べる。
論文 参考訳(メタデータ) (2025-03-26T09:55:00Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models [5.330795983408874]
遅延チャンキングと呼ばれる新しい手法を導入し、長いコンテキストの埋め込みモデルを利用して、まず長いテキストのトークンを埋め込む。
結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、様々な検索タスクにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-09-07T03:54:46Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT [48.35407228760352]
検索パイプラインは、文書が長い(例えば10Kトークン以上)ドメインや、関連する文書を識別する場合は、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適した長文検索エンコーダを開発する。
LoCoV1は,チャンキングが不可能か有効でない場合の長文検索のための新しい12タスクベンチマークである。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
論文 参考訳(メタデータ) (2024-02-12T06:43:52Z) - Dynamic Retrieval-Augmented Generation [4.741884506444161]
動的検索・拡張生成(DRAG)のための新しい手法を提案する。
DRAGは、取得したエンティティの圧縮埋め込みを生成モデルに注入する。
提案手法は,(1)コンテキストウィンドウの長さ制限を解除し,迅速なサイズを節約すること,(2)コンテキストに利用可能な検索エンティティの数を膨大に拡張すること,(3)ミススペルや関連エンティティ名検索の失敗を緩和すること,の3つの目標を達成する。
論文 参考訳(メタデータ) (2023-12-14T14:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。