論文の概要: SAUCE: Truncated Sparse Document Signature Bit-Vectors for Fast
Web-Scale Corpus Expansion
- arxiv url: http://arxiv.org/abs/2108.11948v1
- Date: Thu, 26 Aug 2021 17:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 13:56:26.348298
- Title: SAUCE: Truncated Sparse Document Signature Bit-Vectors for Fast
Web-Scale Corpus Expansion
- Title(参考訳): SAUCE: 高速Webスケールコーパス拡張のための縮小スパース文書署名ビットベクタ
- Authors: Muntasir Wahed, Daniel Gruhl, Alfredo Alba, Anna Lisa Gentile, Petar
Ristoski, Chad Deluca, Steve Welch, Ismini Lourentzou
- Abstract要約: 十分な量のドメイン内テキストが利用できない場合、関連するドキュメントのシードコーパスを大規模Webデータから拡張することは、いくつかの課題をもたらす。
我々は,SAUCE(Corpus Signature Assisted Unsupervised Expansion)と呼ばれる,新規な切り離されたスパース文書ビットベクトル表現を提案する。
実験の結果,SAUCEは高いドメイン内語彙カバレッジを確保しつつ計算負担を軽減できることがわかった。
- 参考スコア(独自算出の注目度): 0.9088208602104102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text representation have shown that training on large
amounts of text is crucial for natural language understanding. However, models
trained without predefined notions of topical interest typically require
careful fine-tuning when transferred to specialized domains. When a sufficient
amount of within-domain text may not be available, expanding a seed corpus of
relevant documents from large-scale web data poses several challenges. First,
corpus expansion requires scoring and ranking each document in the collection,
an operation that can quickly become computationally expensive as the web
corpora size grows. Relying on dense vector spaces and pairwise similarity adds
to the computational expense. Secondly, as the domain concept becomes more
nuanced, capturing the long tail of domain-specific rare terms becomes
non-trivial, especially under limited seed corpora scenarios.
In this paper, we consider the problem of fast approximate corpus expansion
given a small seed corpus with a few relevant documents as a query, with the
goal of capturing the long tail of a domain-specific set of concept terms. To
efficiently collect large-scale domain-specific corpora with limited relevance
feedback, we propose a novel truncated sparse document bit-vector
representation, termed Signature Assisted Unsupervised Corpus Expansion
(SAUCE). Experimental results show that SAUCE can reduce the computational
burden while ensuring high within-domain lexical coverage.
- Abstract(参考訳): テキスト表現の最近の進歩は、大量のテキストの訓練が自然言語理解にとって重要であることを示している。
しかし、トピック的関心の概念を事前に定義せずに訓練されたモデルは、通常、特定のドメインに転送する際には慎重に微調整する必要がある。
十分な量のドメイン内テキストが利用できない場合、関連するドキュメントのシードコーパスを大規模Webデータから拡張することは、いくつかの課題をもたらす。
まず,Webコーパスのサイズが大きくなるにつれて,計算コストが急速に高くなるような処理を行う。
密度の大きいベクトル空間とペアワイズ類似性に頼れば、計算コストが増大する。
第二に、ドメインの概念がより曖昧になるにつれて、ドメイン固有の稀な用語の長い尾を捉えることは、特に限られた種子コーパスのシナリオ下では非自明になる。
本稿では,いくつかの関連文書を持つ小さなシードコーパスを問合せとして,ドメイン固有の概念用語の長い尾を捉えることを目的とした,高速な近似コーパス展開の問題について考察する。
関連性フィードバックが限定された大規模ドメイン固有コーパスを効率よく収集するため,SAUCE (Signature Assisted Unsupervised Corpus Expansion) と呼ばれる,新規なスパース文書ビットベクトル表現を提案する。
実験の結果,SAUCEは高いドメイン内語彙カバレッジを確保しつつ計算負担を軽減できることがわかった。
関連論文リスト
- Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models [5.330795983408874]
遅延チャンキングと呼ばれる新しい手法を導入し、長いコンテキストの埋め込みモデルを利用して、まず長いテキストのトークンを埋め込む。
結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、様々な検索タスクにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-09-07T03:54:46Z) - FastFiD: Improve Inference Efficiency of Open Domain Question Answering via Sentence Selection [61.9638234358049]
FastFiDは、エンコードされたパスで文の選択を実行する新しいアプローチである。
これにより、価値ある文を保持するのに役立ち、回答を生成するのに必要な文脈長を減らすことができる。
論文 参考訳(メタデータ) (2024-08-12T17:50:02Z) - Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts [83.57864140378035]
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-04-02T15:10:11Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity [50.91030850662369]
既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
我々は,超微細な人物検索のためにtextbfUFineBench という新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2023-12-06T11:50:14Z) - Extracting Text Representations for Terms and Phrases in Technical
Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。
このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文 参考訳(メタデータ) (2023-05-25T08:59:36Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Query-Based Keyphrase Extraction from Long Documents [4.823229052465654]
本稿では,長文をチャンクすることでキーフレーズ抽出の問題を克服する。
システムは、事前訓練されたBERTモデルを採用し、それを適応して、与えられたテキストがキーフレーズを形成する確率を推定する。
論文 参考訳(メタデータ) (2022-05-11T10:29:30Z) - A Framework for Authorial Clustering of Shorter Texts in Latent Semantic
Spaces [4.18804572788063]
著者クラスタリングは、著者の執筆スタイルや主題的好みの事前の肯定的な例のない、同一の著者または著者のチームによって書かれた文書をグループ化する。
非パラメトリックなトピックモデリングから導出した潜在特徴空間におけるコンパクトなデータ表現を利用する高レベルフレームワークを提案する。
3つの言語と2つのジャンルで120個のコレクションを実験し、トピックベースの潜在機能空間が有望なパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-11-30T17:39:44Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Interpretable Multi-Headed Attention for Abstractive Summarization at
Controllable Lengths [14.762731718325002]
MLS(Multi-level Summarizer)は、テキスト文書の要約を制御可能な長さで構築するための教師付き手法である。
MLSはMETEORスコアで14.70%の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2020-02-18T19:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。