論文の概要: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?
- arxiv url: http://arxiv.org/abs/2411.03962v5
- Date: Mon, 31 Mar 2025 16:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:30:16.001031
- Title: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?
- Title(参考訳): テキスト前処理パイプラインはオントロジーの構文マッチングにどのように影響するか?
- Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang,
- Abstract要約: テキスト前処理における標準化の欠如は、マッピング結果の多様性を生み出します。
第1相テキスト前処理(トークン化・正規化)は第2相テキスト前処理(ストップワード除去・ステミング・レマトゼーション)よりも効果的である
本稿では,ポストホックチェックを用いた文脈に基づくパイプライン修復手法を提案する。
- 参考スコア(独自算出の注目度): 4.222245509121683
- License:
- Abstract: The classic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many systems for syntactic ontology matching (OM). However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper we investigate the effect of the text preprocessing pipeline on syntactic OM in 8 Ontology Alignment Evaluation Initiative (OAEI) tracks with 49 distinct alignments. We find that Phase 1 text preprocessing (Tokenisation and Normalisation) is more effective than Phase 2 text preprocessing (Stop Words Removal and Stemming/Lemmatisation). To repair the unwanted false mappings caused by Phase 2 text preprocessing, we propose a novel context-based pipeline repair approach that employs a post hoc check to find common words that cause false mappings. These words are stored in a reserved word set and applied in text preprocessing. The experimental results show that our approach improves the matching correctness and the overall matching performance. We then consider the broader integration of the classic text preprocessing pipeline with modern large language models (LLMs) for OM. We recommend that (1) the text preprocessing pipeline be injected via function calling into LLMs to avoid the tendency towards unstable true mappings produced by LLM prompting; or (2) LLMs be used to repair non-existent and counter-intuitive false mappings generated by the text preprocessing pipeline.
- Abstract(参考訳): Tokenisation, Normalisation, Stop Words removed, and Stemming/Lemmatisationを含む古典的なテキスト前処理パイプラインは、構文オントロジーマッチング(OM)のための多くのシステムで実装されている。
しかし、テキスト前処理における標準化の欠如は、マッピング結果の多様性を生み出している。
本稿では,テキスト前処理パイプラインが8オントロジーアライメント評価イニシアチブ(OAEI)における構文OMに与える影響について検討する。
その結果,第1相のテキスト前処理は第2相のテキスト前処理よりも効果的であることが判明した(Stop Words removal and Stemming/Lemmatisation)。
本稿では,第2相のテキスト前処理による不要な偽マッピングを修復するために,ポストホックチェックを用いたコンテキストベースのパイプライン修復手法を提案する。
これらの単語は予約された単語セットに格納され、テキスト前処理に適用される。
実験の結果,提案手法は一致の正しさと全体の一致性能を改善した。
次に、従来のテキスト前処理パイプラインと、OMのための近代的な大規模言語モデル(LLM)とのより広範な統合を検討します。
LLMが生成する不安定な真のマッピングの傾向を回避するために,(1) テキスト前処理パイプラインを LLM に呼び出し,(2) テキスト前処理パイプラインが生成する非存在的かつ直観的でない偽マッピングを修復するために, テキスト前処理パイプラインを LLM に注入することを推奨する。
関連論文リスト
- YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Written Term Detection Improves Spoken Term Detection [9.961529254621432]
本稿では、インデックスや検索を複雑にすることなく、未完成のテキストをE2E KWSに統合できるマルチタスク学習目標を提案する。
音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。
提案手法は, 多様な言語を対象とした検索性能を大幅に向上させるとともに, KWS の未実装テキストを効果的に活用できることを示す。
論文 参考訳(メタデータ) (2024-07-05T15:50:47Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2024-02-29T12:39:04Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。
本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文 参考訳(メタデータ) (2022-11-11T02:29:28Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。