論文の概要: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
- arxiv url: http://arxiv.org/abs/2510.11482v1
- Date: Mon, 13 Oct 2025 14:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.411969
- Title: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
- Title(参考訳): 大規模言語モデルのテキスト前処理における言語能力の検討
- Authors: Marco Braga, Gian Carlo Milanese, Gabriella Pasi,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いた各種前処理タスクの実行について検討する。
LLMに基づく前処理を,ヨーロッパの6言語における複数のテキスト分類タスクにまたがる従来のアルゴリズムと比較する。
以上の結果から, LLMは従来のストップワード除去法, 補綴法, 造語法をそれぞれ97%, 82%, 74%の精度で再現可能であることが示唆された。
- 参考スコア(独自算出の注目度): 7.855724133071134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.
- Abstract(参考訳): テキスト前処理は自然言語処理の基本的な構成要素であり、さらなる処理と解析のためにテキストを入力として準備するためのストップワード除去、スリーミング、補綴などの技術を含んでいる。
上記の手法の文脈依存性にもかかわらず、伝統的な手法は通常文脈情報を無視している。
本稿では,Large Language Models (LLM) を様々な前処理タスクに使用するという考え方について検討する。
ウェブソースデータに対する包括的評価を通じて、6つのヨーロッパ言語における複数のテキスト分類タスクにわたる従来のアルゴリズムと比較した。
以上の結果から, LLMは従来のストップワード除去法, 補綴法, 造語法をそれぞれ97%, 82%, 74%の精度で再現可能であることが示唆された。
さらに,LLMが事前処理したテキストに基づいて学習したMLアルゴリズムは,従来の手法と比較してF_1$尺度に対して最大6%向上したことを示す。
私たちのコード、プロンプト、結果はhttps://github.com/GianCarloMilanese/llm_pipeline_wi-iat.comで公開されています。
関連論文リスト
- Lemma Dilemma: On Lemma Generation Without Domain- or Language-Specific Training Data [18.87770758217633]
レマタイズ(Lemmatization)とは、あるテキスト中のすべての単語を辞書形式に変換するタスクである。
文脈的補題化タスクにおいて,大規模言語モデルがいかに効果的かという証拠は,これまで存在しなかった。
本稿では,次世代LLMにおけるテキスト内補間処理の能力について実験的に検討する。
論文 参考訳(メタデータ) (2025-10-08T18:34:00Z) - Semantic Outlier Removal with Embedding Models and LLMs [0.45080838507508303]
我々は,不必要なテキストセグメントを識別・抽出するためのコスト効率のよい透明なSORE(Semantic Outlier removal)を紹介する。
SOREは、約LLM抽出精度をコストのごく一部で達成する。
当社のシステムは現在本番環境にデプロイされており、複数の言語で毎日数百万のドキュメントを処理しています。
論文 参考訳(メタデータ) (2025-06-19T23:06:12Z) - Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective [40.29094043868067]
本稿では,長期文書検索においてLLMベースの埋め込みモデルよりも20%優れる拡散言語埋め込みモデルについて,最初の体系的研究を行う。
我々の分析は、双方向の注意が、長く複雑なテキストでグローバルなコンテキストを符号化するのに重要であることを検証している。
論文 参考訳(メタデータ) (2025-05-21T02:59:14Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models [0.8899670429041453]
生成型大規模言語モデル(LLM)は,広範囲なデータを必要とすることなく,非常に高品質なNLPタスクを解くことができることを示す。
新たなプロンプト戦略に基づいて,LLMが最先端の機械学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T06:39:35Z) - Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。