論文の概要: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?
- arxiv url: http://arxiv.org/abs/2411.03962v1
- Date: Wed, 06 Nov 2024 14:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:43.895772
- Title: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?
- Title(参考訳): テキスト前処理パイプラインはオントロジーの構文マッチングにどのように影響するか?
- Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang,
- Abstract要約: トークン化と正規化は、ストップワードの除去とステミング/レマティゼーションよりも効果的である。
パート・オブ・Speech Taggingは、Lemmatisationには役に立たない。
本稿では,新しいコンテキストベースのパイプライン修復手法を提案する。
- 参考スコア(独自算出の注目度): 4.222245509121683
- License:
- Abstract: The generic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many ontology matching (OM) systems. However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper, we investigate the effect of the text preprocessing pipeline on OM tasks at syntactic levels. Our experiments on 8 Ontology Alignment Evaluation Initiative (OAEI) track repositories with 49 distinct alignments indicate: (1) Tokenisation and Normalisation are currently more effective than Stop Words Removal and Stemming/Lemmatisation; and (2) The selection of Lemmatisation and Stemming is task-specific. We recommend standalone Lemmatisation or Stemming with post-hoc corrections. We find that (3) Porter Stemmer and Snowball Stemmer perform better than Lancaster Stemmer; and that (4) Part-of-Speech (POS) Tagging does not help Lemmatisation. To repair less effective Stop Words Removal and Stemming/Lemmatisation used in OM tasks, we propose a novel context-based pipeline repair approach that significantly improves matching correctness and overall matching performance. We also discuss the use of text preprocessing pipeline in the new era of large language models (LLMs).
- Abstract(参考訳): Tokenisation, Normalisation, Stop Words removed, and Stemming/Lemmatisationを含む汎用テキスト前処理パイプラインは、多くのオントロジーマッチング(OM)システムで実装されている。
しかし、テキスト前処理における標準化の欠如は、マッピング結果の多様性を生み出している。
本稿では,テキスト前処理パイプラインが構文レベルでのOMタスクに与える影響について検討する。
第8回オントロジーアライメント・アライメント・アライメント・イニシアチブ (OAEI) のトラック・レポジトリ(49個のアライメントを持つトラック・レポジトリ) における実験は,(1) トークン化と正規化は,現在,ストップワードの除去とステミング/レマティゼーションよりも有効であり,(2) レンマティゼーションとステミングの選択はタスク固有であることを示している。
私たちは、ポストホック修正でスタンドアロンのLemmatisationやStemmingを推奨します。
(3)ポーター・ステマーとスノーボール・ステマーはランカスター・ステマーより優れており,(4)パート・オブ・スピーチ (POS) タグ付けはレマタイズに役立ちません。
OMタスクで使用される効率の低い停止語除去とステミング/レマタイズを修復するために,マッチングの正しさと全体的なマッチング性能を大幅に向上させる,コンテキストベースのパイプライン修復手法を提案する。
また,大規模言語モデル(LLM)の新時代におけるテキスト前処理パイプラインの利用についても論じる。
関連論文リスト
- YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Written Term Detection Improves Spoken Term Detection [9.961529254621432]
本稿では、インデックスや検索を複雑にすることなく、未完成のテキストをE2E KWSに統合できるマルチタスク学習目標を提案する。
音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。
提案手法は, 多様な言語を対象とした検索性能を大幅に向上させるとともに, KWS の未実装テキストを効果的に活用できることを示す。
論文 参考訳(メタデータ) (2024-07-05T15:50:47Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2024-02-29T12:39:04Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。
本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文 参考訳(メタデータ) (2022-11-11T02:29:28Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。