論文の概要: SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches
- arxiv url: http://arxiv.org/abs/2503.03703v1
- Date: Wed, 05 Mar 2025 17:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:33.356907
- Title: SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches
- Title(参考訳): SoftMatcha: 数十億ドル規模の企業検索のためのソフトで高速なパターンマッチングツール
- Authors: Hiroyuki Deguchi, Go Kamoda, Yusuke Matsushita, Chihiro Taguchi, Kohei Suenaga, Masaki Waga, Sho Yokoi,
- Abstract要約: 本稿では,単語埋め込みと曲面レベルのマッチングを緩和することにより,意味的かつ効率的なパターンマッチングを実現する新しいアルゴリズムを提案する。
提案手法は,数十億のコーパスを1秒以内で探索できることを実証した。
- 参考スコア(独自算出の注目度): 5.80278230280824
- License:
- Abstract: Researchers and practitioners in natural language processing and computational linguistics frequently observe and analyze the real language usage in large-scale corpora. For that purpose, they often employ off-the-shelf pattern-matching tools, such as grep, and keyword-in-context concordancers, which is widely used in corpus linguistics for gathering examples. Nonetheless, these existing techniques rely on surface-level string matching, and thus they suffer from the major limitation of not being able to handle orthographic variations and paraphrasing -- notable and common phenomena in any natural language. In addition, existing continuous approaches such as dense vector search tend to be overly coarse, often retrieving texts that are unrelated but share similar topics. Given these challenges, we propose a novel algorithm that achieves \emph{soft} (or semantic) yet efficient pattern matching by relaxing a surface-level matching with word embeddings. Our algorithm is highly scalable with respect to the size of the corpus text utilizing inverted indexes. We have prepared an efficient implementation, and we provide an accessible web tool. Our experiments demonstrate that the proposed method (i) can execute searches on billion-scale corpora in less than a second, which is comparable in speed to surface-level string matching and dense vector search; (ii) can extract harmful instances that semantically match queries from a large set of English and Japanese Wikipedia articles; and (iii) can be effectively applied to corpus-linguistic analyses of Latin, a language with highly diverse inflections.
- Abstract(参考訳): 自然言語処理や計算言語学の研究者や実践者は、大規模コーパスの実際の言語使用をよく観察し、分析する。
その目的のために、グレップのような既製のパターンマッチングツールや、コーパス言語学で広く使われているキーワード・イン・コンコーダーを用いることが多い。
それにもかかわらず、これらの既存の技法は表面レベルの文字列マッチングに依存しており、あらゆる自然言語で顕著で一般的な現象である、正書法的なバリエーションやパラフレーズを扱うことができないという大きな制限に悩まされている。
さらに、高密度ベクトル探索のような既存の連続的なアプローチは、しばしば無関係だが類似のトピックを共有するテキストを検索する、過度に粗い傾向にある。
これらの課題を考慮し,単語埋め込みと曲面レベルのマッチングを緩和することにより,「emph{soft}」(あるいは意味論的)かつ効率的なパターンマッチングを実現する新しいアルゴリズムを提案する。
我々のアルゴリズムは、逆インデックスを用いたコーパステキストのサイズに関して非常にスケーラブルである。
我々は効率的な実装を準備しており、アクセス可能なWebツールを提供しています。
提案手法の実証実験を行った。
i) 数十億のコーパスの探索を1秒以内で行うことができ、これは表面レベルの文字列マッチングや高密度ベクトル探索に匹敵する速度である。
(二)英語と日本語のウィキペディアの大量の記事から、問合せを意味的に一致させる有害な事例を抽出することができる。
(iii)は、非常に多様な屈折を持つラテン語のコーパス・言語分析に効果的に適用することができる。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Interactive Extractive Search over Biomedical Corpora [41.72755714431404]
本稿では,生命科学研究者が言語的に注釈付けされたテキストのコーパスを検索できるようにするシステムを提案する。
本稿では,下層の言語表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-07T13:26:32Z) - Syntactic Search by Example [44.69040040007045]
本稿では,依存グラフ上の構文パターンを用いて,言語的に注釈付けされた大規模コーパスを検索するシステムを提案する。
本稿では,下層の構文表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-04T16:59:01Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。