論文の概要: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?
- arxiv url: http://arxiv.org/abs/2411.03962v4
- Date: Sun, 02 Mar 2025 13:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:10:14.091367
- Title: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?
- Title(参考訳): テキスト前処理パイプラインはオントロジーの構文マッチングにどのように影響するか?
- Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang,
- Abstract要約: ジェネリックテキスト前処理パイプライン、トークン化、正規化、停止語除去、ステミング/レマティゼーション。
テキスト前処理パイプラインが8オントロジーアライメント評価イニシアチブ(OAEI)トラックの構文OMに与える影響について検討した。
提案手法は,擬似写像の原因となる一般的な単語を見つけるために,アドホックチェックを用いた新しい文脈ベースのパイプライン修復手法を提案する。
- 参考スコア(独自算出の注目度): 4.222245509121683
- License:
- Abstract: The generic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many systems for syntactic ontology matching (OM). However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper, we investigate the effect of the text preprocessing pipeline on syntactic OM in 8 Ontology Alignment Evaluation Initiative (OAEI) tracks with 49 distinct alignments. We find that Phase 1 text preprocessing (Tokenisation and Normalisation) is currently more effective than Phase 2 text preprocessing (Stop Words Removal and Stemming/Lemmatisation). To repair the less effective Phase 2 text preprocessing caused by unwanted false mappings, we propose a novel context-based pipeline repair approach that employs an ad hoc check to find common words that cause false mappings. These words are stored in a reserved word set and applied in text preprocessing. The experimental results show that our approach improves the matching correctness and the overall matching performance. We also discuss the integration of the classical text preprocessing pipeline with modern large language models (LLMs). We recommend that LLMs inject the text preprocessing pipeline via function calling to avoid the tendency towards unstable true mappings produced by prompt-based LLM approaches, and use LLMs to repair false mappings generated by the text preprocessing pipeline.
- Abstract(参考訳): Tokenisation, Normalisation, Stop Words removed, and Stemming/Lemmatisationを含む汎用テキスト前処理パイプラインは、構文オントロジーマッチング(OM)のための多くのシステムで実装されている。
しかし、テキスト前処理における標準化の欠如は、マッピング結果の多様性を生み出している。
本稿では,49個のアライメントを持つ8オントロジーアライメント評価イニシアチブ(OAEI)トラックの構文OMに対するテキスト前処理パイプラインの効果について検討する。
現在,第1相テキスト前処理(トークン化と正規化)は第2相テキスト前処理(ストップワード除去とステミング/レマタイズ)よりも有効であることがわかった。
不要な偽マッピングによる低効率な第2相テキスト前処理を修復するために,アドホックチェックを用いて,偽マッピングの原因となる一般的な単語を見つける,コンテキストベースのパイプライン修復手法を提案する。
これらの単語は予約された単語セットに格納され、テキスト前処理に適用される。
実験の結果,提案手法は一致の正しさと全体の一致性能を改善した。
また,従来のテキスト前処理パイプラインと現代大規模言語モデル(LLM)の統合についても論じる。
我々は,LLMが関数呼び出しによってテキスト前処理パイプラインを注入して,プロンプトベースのLLMアプローチによる不安定な真のマッピングの傾向を回避することを推奨し,テキスト前処理パイプラインが生成した誤マッピングの修復にLLMを使用することを推奨する。
関連論文リスト
- YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Written Term Detection Improves Spoken Term Detection [9.961529254621432]
本稿では、インデックスや検索を複雑にすることなく、未完成のテキストをE2E KWSに統合できるマルチタスク学習目標を提案する。
音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。
提案手法は, 多様な言語を対象とした検索性能を大幅に向上させるとともに, KWS の未実装テキストを効果的に活用できることを示す。
論文 参考訳(メタデータ) (2024-07-05T15:50:47Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2024-02-29T12:39:04Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。
本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文 参考訳(メタデータ) (2022-11-11T02:29:28Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。