論文の概要: Semantic Outlier Removal with Embedding Models and LLMs
- arxiv url: http://arxiv.org/abs/2506.16644v1
- Date: Thu, 19 Jun 2025 23:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.28166
- Title: Semantic Outlier Removal with Embedding Models and LLMs
- Title(参考訳): 埋め込みモデルとLLMを用いた意味的外乱除去
- Authors: Eren Akbiyik, João Almeida, Rik Melis, Ritu Sriram, Viviana Petrescu, Vilhjálmur Vilhjálmsson,
- Abstract要約: 我々は,不必要なテキストセグメントを識別・抽出するためのコスト効率のよい透明なSORE(Semantic Outlier removal)を紹介する。
SOREは、約LLM抽出精度をコストのごく一部で達成する。
当社のシステムは現在本番環境にデプロイされており、複数の言語で毎日数百万のドキュメントを処理しています。
- 参考スコア(独自算出の注目度): 0.45080838507508303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern text processing pipelines demand robust methods to remove extraneous content while preserving a document's core message. Traditional approaches such as HTML boilerplate extraction or keyword filters often fail in multilingual settings and struggle with context-sensitive nuances, whereas Large Language Models (LLMs) offer improved quality at high computational cost. We introduce SORE (Semantic Outlier Removal), a cost-effective, transparent method that leverages multilingual sentence embeddings and approximate nearest-neighbor search to identify and excise unwanted text segments. By first identifying core content via metadata embedding and then flagging segments that either closely match predefined outlier groups or deviate significantly from the core, SORE achieves near-LLM extraction precision at a fraction of the cost. Experiments on HTML datasets demonstrate that SORE outperforms structural methods and yield high precision in diverse scenarios. Our system is currently deployed in production, processing millions of documents daily across multiple languages while maintaining both efficiency and accuracy. To facilitate reproducibility and further research, we release our implementation and evaluation datasets.
- Abstract(参考訳): 現代のテキスト処理パイプラインは、ドキュメントのコアメッセージを保存しながら、外部コンテンツを削除する堅牢な方法を要求する。
HTMLボイラープレート抽出やキーワードフィルタといった従来の手法は、多言語設定で失敗し、文脈に敏感なニュアンスと競合することが多いが、Large Language Models (LLM) は高い計算コストで品質を向上させる。
提案手法は,多言語文の埋め込みと近接検索を利用して不要なテキストセグメントを識別・抽出する,コスト効率のよい透明なSORE(Semantic Outlier removal)を提案する。
まず、メタデータの埋め込みを通じてコアコンテンツを識別し、事前に定義された外れ値グループと密に一致したセグメントをフラグ付けすることで、SOREはコストのごく一部でほぼLLM抽出精度を達成できる。
HTMLデータセットの実験では、SOREが構造的手法より優れ、多様なシナリオで高い精度が得られることが示されている。
現在本システムは実運用環境にデプロイされており、効率と精度を両立しながら、複数の言語で毎日数百万のドキュメントを処理しています。
再現性とさらなる研究を容易にするため,我々は実装と評価データセットをリリースする。
関連論文リスト
- Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Active Learning for Multilingual Semantic Parser [65.2180122032335]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。
AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。
実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-01-30T14:19:29Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Perplexed by Quality: A Perplexity-based Method for Adult and Harmful
Content Detection in Multilingual Heterogeneous Web Data [0.0]
我々は多言語不均一なWebデータにおいて、成人と有害なコンテンツを検出する様々な方法を探究する。
我々は、成人および有害なテキストデータのみを訓練し、与えられたしきい値以上の難易度値の文書を選択する。
このアプローチは、文書を事実上2つの異なるグループにクラスタリングし、パープレキシティのしきい値の選択を大幅に促進します。
論文 参考訳(メタデータ) (2022-12-20T17:14:45Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。