論文の概要: Zero-Shot Contextual Embeddings via Offline Synthetic Corpus Generation
- arxiv url: http://arxiv.org/abs/2506.23662v1
- Date: Mon, 30 Jun 2025 09:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.997434
- Title: Zero-Shot Contextual Embeddings via Offline Synthetic Corpus Generation
- Title(参考訳): オフライン合成コーパス生成によるゼロショットコンテキスト埋め込み
- Authors: Philip Lippmann, Jie Yang,
- Abstract要約: ZESTはゼロショットのコンテキスト適応フレームワークである。
実際のコーパスアクセスを、コンパクトプロキシの1回限りのオフライン合成に置き換える。
- 参考スコア(独自算出の注目度): 4.313454680394974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Context-aware embedding methods boost retrieval accuracy by conditioning on corpus statistics (e.g., term co-occurrence and topical patterns) extracted from neighboring documents. However, this context-aware approach requires access to the target corpus or requires domain-specific finetuning, posing practical barriers in privacy-sensitive or resource-constrained settings. We present ZEST, a zero-shot contextual adaptation framework that replaces real corpus access with a one-time offline synthesis of a compact proxy. Given only a handful exemplar documents representative of the general target domain, we use a multi-step hierarchical procedure to generate a synthetic context corpus of several hundred documents that aims to emulate key domain-specific distributions. At inference, the frozen context-aware encoder uses this proxy corpus -- without any finetuning or target corpus access -- to produce domain-adapted embeddings. Across the MTEB benchmark, ZEST's zero-shot synthetic context adaptation using only five example documents performs within 0.5% of models leveraging full target corpus access -- demonstrating remarkable efficacy without any retraining. ZEST thus provides a practical method for deploying high-performance, adaptable embeddings in constrained environments.
- Abstract(参考訳): コンテキスト認識型埋め込み手法は, 周辺文書から抽出したコーパス統計(用語共起パターン, 話題パターン)を条件付けすることで, 検索精度を向上させる。
しかし、このコンテキスト対応アプローチでは、ターゲットのコーパスにアクセスしたり、ドメイン固有の微調整を必要とし、プライバシに敏感な設定やリソース制約のある設定において現実的な障壁を生じさせる。
ZESTは、実コーパスアクセスをコンパクトプロキシの1回のオフライン合成に置き換えるゼロショットコンテキスト適応フレームワークである。
汎用ターゲットドメインを代表するごく少数の模範文書のみを前提として、キードメイン固有の分布をエミュレートすることを目的とした数百の文書からなる合成コンテキストコーパスを生成するために、多段階の階層的手順を用いる。
推論では、フリーズされたコンテキスト認識エンコーダは、このプロキシコーパス(微調整やターゲットコーパスアクセスなしで)を使用して、ドメイン適応の埋め込みを生成する。
MTEBベンチマーク全体を通じて、ZESTのゼロショット合成コンテキスト適応は、5つのサンプル文書のみを使用して、完全なターゲットコーパスアクセスを利用するモデルの0.5%以内で実行される。
これにより、ZESTは、制約のある環境で高性能で適応可能な埋め込みをデプロイするための実用的な方法を提供する。
関連論文リスト
- Class-Agnostic Region-of-Interest Matching in Document Images [5.0512633844625405]
本稿では,「クラス非依存領域-関心のマッチング」という新しいタスクを定義する。
カスタマイズされたリージョンを、フレキシブルで効率よく、マルチグラニュラで、オープンな方法でマッチングすることを目指している。
実環境下での難易度を3段階に設定したベンチマークRoI-Matching-Benchを構築した。
また,シアムネットワークを用いてマルチレベルの特徴を抽出する新しいフレームワークRoI-Matcherを提案する。
論文 参考訳(メタデータ) (2025-06-26T07:09:19Z) - Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings [25.966475857117175]
本研究では,文書ワイドコンテキストを利用した検索モデルの評価を行うためのベンチマークであるConTEBを紹介する。
以上の結果から,最先端の埋め込みモデルは,コンテキストが必要な検索シナリオで苦労していることがわかった。
InSeNTは、遅延チャンキングプーリングと組み合わせることで文脈表現学習が促進される、新しい対照的なポストトレーニング手法である。
論文 参考訳(メタデータ) (2025-05-30T16:43:28Z) - Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。
本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - CREPE: Coordinate-Aware End-to-End Document Parser [13.530212337717515]
視覚文書理解のためのOCRフリーシーケンス生成モデル(VDU)を定式化する。
本モデルは,文書画像からテキストを解析するだけでなく,マルチヘッドアーキテクチャに基づくテキストの空間座標も抽出する。
コーディネート・アウェア・エンド・ツー・エンドドキュメンテーション(Coordinate-aware End-to-end Document)と呼ばれる。
CREPEでは,OCRテキスト用の特別なトークンを導入することで,これらの機能を独自に統合する。
論文 参考訳(メタデータ) (2024-05-01T00:30:13Z) - Top-Down Synthesis for Library Learning [46.285220926554345]
コーパス誘導トップダウン合成は、プログラムのコーパスから共通機能をキャプチャするライブラリ関数を合成するメカニズムである。
本稿では,この手法をStitchと呼ばれるツールに実装し,DreamCoderの最先端の推論ライブラリ学習アルゴリズムに対して評価する。
論文 参考訳(メタデータ) (2022-11-29T21:57:42Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。