論文の概要: Luxical: High-Speed Lexical-Dense Text Embeddings
- arxiv url: http://arxiv.org/abs/2512.09015v2
- Date: Thu, 11 Dec 2025 17:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.214442
- Title: Luxical: High-Speed Lexical-Dense Text Embeddings
- Title(参考訳): 高速レキシカルテキスト埋め込み
- Authors: DatologyAI, :, Luke Merrick, Alex Fang, Aldo Carranza, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Fan Pan, Haakon Mongstad, Haoli Yin, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Kaleigh Mentzer, Paul Burstein, Parth Doshi, Paul Burnstein, Pratyush Maini, Ricardo Monti, Rishabh Adiga, Scott Loftin, Siddharth Joshi, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt,
- Abstract要約: Luxical は高速な "lexical-dense" テキスト埋め込みのためのライブラリである。
Webスケールのテキスト組織において、両方のアプローチの最高の特性を回復することを目的としている。
- 参考スコア(独自算出の注目度): 17.107033067033438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier language model quality increasingly hinges on our ability to organize web-scale text corpora for training. Today's dominant tools trade off speed and flexibility: lexical classifiers (e.g., FastText) are fast but limited to producing classification output scores, while the vector-valued outputs of transformer text embedding models flexibly support numerous workflows (e.g., clustering, classification, and retrieval) but are computationally expensive to produce. We introduce Luxical, a library for high-speed "lexical-dense" text embeddings that aims to recover the best properties of both approaches for web-scale text organization. Luxical combines sparse TF--IDF features, a small ReLU network, and a knowledge distillation training regimen to approximate large transformer embedding models at a fraction of their operational cost. In this technical report, we describe the Luxical architecture and training objective and evaluate a concrete Luxical model in two disparate applications: a targeted webcrawl document retrieval test and an end-to-end language model data curation task grounded in text classification. In these tasks we demonstrate speedups ranging from 3x to 100x over varying-sized neural baselines, and comparable to FastText model inference during the data curation task. On these evaluations, the tested Luxical model illustrates favorable compute/quality trade-offs for large-scale text organization, matching the quality of neural baselines. Luxical is available as open-source software at https://github.com/datologyai/luxical.
- Abstract(参考訳): 最前線の言語モデルの品質は、トレーニングのためにWebスケールのテキストコーパスを編成する能力にますます重きを置いています。
語彙分類器(例えば、FastText)は高速だが、分類出力のスコアの生成に限られている。一方、トランスフォーマーテキスト埋め込みモデルのベクトル値出力は、多くのワークフロー(例えば、クラスタリング、分類、検索)を柔軟にサポートしているが、計算的にコストがかかる。
高速な「レキシカルセンス」テキスト埋め込みのためのライブラリであるLuxicalを導入し、Webスケールのテキスト組織における両アプローチの最高の特性を回復することを目的とした。
Luxicalは、スパースTF-IDF機能、小さなReLUネットワーク、知識蒸留訓練と組み合わせて、大きなトランスフォーマー埋め込みモデルを運用コストのごく一部で近似する。
本稿では,Luxical アーキテクチャと学習目標について述べるとともに,Webcrawl 文書検索テストと,テキスト分類に基づくエンドツーエンドの言語モデルデータキュレーションタスクの2つの異なるアプリケーションにおいて,具体的なLuxical モデルを評価する。
これらのタスクでは、さまざまなサイズのニューラルベースラインに対する3倍から100倍のスピードアップを示し、データキュレーションタスク中のFastTextモデル推論に匹敵する。
これらの評価に基づいて、テストされたLuxicalモデルは、大規模テキスト編成において好適な計算/品質トレードオフを示し、ニューラルベースラインの品質に適合する。
Luxicalはhttps://github.com/datologyai/luxical.comでオープンソースソフトウェアとして公開されている。
関連論文リスト
- TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis [29.297349416515665]
TextFluxは、多言語シーンテキスト合成を可能にするDiTベースのフレームワークである。
TextFluxは低リソースのマルチリンガル設定で有効であり、1000サンプル未満の新たな言語で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-23T11:46:46Z) - Small Language Models in the Real World: Insights from Industrial Text Classification [9.70280446429164]
ChatGPTは、テキスト分類と関連するタスクが大幅に進歩している。
より小さな言語モデルがテキスト分類タスクを効果的に扱えるかどうかという問題は、重要な関心事として浮上する。
本研究は,トランスフォーマーを用いたテキスト分類のための,プロンプトエンジニアリングと教師付き微調整手法の総合評価を行う。
論文 参考訳(メタデータ) (2025-05-21T23:39:24Z) - Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - Adapting Deep Learning for Sentiment Classification of Code-Switched
Informal Short Text [1.6752182911522517]
コードスイッチによる非公式テキストの感情分類のために,MultiSentiというラベル付きデータセットを提案する。
コードスイッチトされた非公式短文の感情分類のための深層学習に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-01-04T06:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。