Fugu-MT 論文翻訳(概要): How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?

論文の概要: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?

arxiv url: http://arxiv.org/abs/2411.03962v3
Date: Sat, 23 Nov 2024 10:18:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.005157
Title: How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?
Title（参考訳）: テキスト前処理パイプラインはオントロジーの構文マッチングにどのように影響するか?
Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang,
Abstract要約: トークン化と正規化は、ストップワードの除去とステミング/レマティゼーションよりも効果的である。パート・オブ・Speech Taggingは、Lemmatisationには役に立たない。本稿では,新しいコンテキストベースのパイプライン修復手法を提案する。
参考スコア（独自算出の注目度）: 4.222245509121683
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The generic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many ontology matching (OM) systems. However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper, we investigate the effect of the text preprocessing pipeline on OM tasks at syntactic levels. Our experiments on 8 Ontology Alignment Evaluation Initiative (OAEI) track repositories with 49 distinct alignments indicate: (1) Tokenisation and Normalisation are currently more effective than Stop Words Removal and Stemming/Lemmatisation; and (2) The selection of Lemmatisation and Stemming is task-specific. We recommend standalone Lemmatisation or Stemming with post-hoc corrections. We find that (3) Porter Stemmer and Snowball Stemmer perform better than Lancaster Stemmer; and that (4) Part-of-Speech (POS) Tagging does not help Lemmatisation. To repair less effective Stop Words Removal and Stemming/Lemmatisation used in OM tasks, we propose a novel context-based pipeline repair approach that significantly improves matching correctness and overall matching performance. We also discuss the use of text preprocessing pipeline in the new era of large language models (LLMs).
Abstract（参考訳）: Tokenisation, Normalisation, Stop Words removed, and Stemming/Lemmatisationを含む汎用テキスト前処理パイプラインは、多くのオントロジーマッチング(OM)システムで実装されている。しかし、テキスト前処理における標準化の欠如は、マッピング結果の多様性を生み出している。本稿では,テキスト前処理パイプラインが構文レベルでのOMタスクに与える影響について検討する。第8回オントロジーアライメント・アライメント・アライメント・イニシアチブ (OAEI) のトラック・レポジトリ(49個のアライメントを持つトラック・レポジトリ) における実験は,(1) トークン化と正規化は,現在,ストップワードの除去とステミング/レマティゼーションよりも有効であり,(2) レンマティゼーションとステミングの選択はタスク固有であることを示している。私たちは、ポストホック修正でスタンドアロンのLemmatisationやStemmingを推奨します。 (3)ポーター・ステマーとスノーボール・ステマーはランカスター・ステマーより優れており,(4)パート・オブ・スピーチ (POS) タグ付けはレマタイズに役立ちません。 OMタスクで使用される効率の低い停止語除去とステミング/レマタイズを修復するために,マッチングの正しさと全体的なマッチング性能を大幅に向上させる,コンテキストベースのパイプライン修復手法を提案する。また,大規模言語モデル(LLM)の新時代におけるテキスト前処理パイプラインの利用についても論じる。

関連論文リスト

LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文参考訳（メタデータ） (2026-02-04T16:19:05Z)
Partial Scene Text Retrieval [56.14891109413448]
部分的なシーンテキスト検索のタスクは、画像ギャラリーから与えられたクエリテキストと同一または類似のテキストインスタンスをローカライズして検索することである。既存のメソッドはテキストラインインスタンスのみを扱うことができ、部分パッチの検索は未解決のままである。テキストラインインスタンスと部分パッチの両方を同時に検索できるネットワークを提案する。
論文参考訳（メタデータ） (2024-11-15T15:08:04Z)
Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。そのByte-Pairを示します。 Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文参考訳（メタデータ） (2024-10-21T07:10:07Z)
YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。 VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文参考訳（メタデータ） (2024-08-27T11:31:12Z)
Written Term Detection Improves Spoken Term Detection [9.961529254621432]
本稿では、インデックスや検索を複雑にすることなく、未完成のテキストをE2E KWSに統合できるマルチタスク学習目標を提案する。音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。提案手法は, 多様な言語を対象とした検索性能を大幅に向上させるとともに, KWS の未実装テキストを効果的に活用できることを示す。
論文参考訳（メタデータ） (2024-07-05T15:50:47Z)
Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文参考訳（メタデータ） (2024-06-24T16:38:17Z)
DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。 DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文参考訳（メタデータ） (2024-02-29T12:39:04Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
Reducing Sequence Length by Predicting Edit Operations with Large Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文参考訳（メタデータ） (2023-05-19T17:51:05Z)
Towards Computationally Verifiable Semantic Grounding for Language Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。 LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文参考訳（メタデータ） (2022-11-16T17:35:52Z)
Align, Write, Re-order: Explainable End-to-End Speech Translation via Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文参考訳（メタデータ） (2022-11-11T02:29:28Z)
Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文参考訳（メタデータ） (2022-11-06T07:53:19Z)
token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文参考訳（メタデータ） (2022-10-30T06:38:19Z)
Text Editing as Imitation Game [33.418628166176234]
動作クローンを用いた模倣ゲームとしてテキスト編集を再構成する。我々は、アクショントークン間の依存関係を保持しながら、デコーディングを並列化するデュアルデコーダ構造を導入する。私たちのモデルは、パフォーマンス、効率、堅牢性の点で、自己回帰ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2022-10-21T22:07:04Z)
Improving Contextual Recognition of Rare Words with an Alternate Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。 2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文参考訳（メタデータ） (2022-09-02T19:30:16Z)
Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文参考訳（メタデータ） (2022-04-15T07:38:08Z)
Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文参考訳（メタデータ） (2021-10-04T03:59:15Z)
A Simple and Strong Baseline: Progressively Region-based Scene Text Removal Networks [72.32357172679319]
本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。 PERTはSTRタスクをいくつかの消去段階に分解する。 PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
論文参考訳（メタデータ） (2021-06-24T14:06:06Z)
COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。 COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文参考訳（メタデータ） (2021-02-16T22:24:29Z)
Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-19T11:05:13Z)
Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文参考訳（メタデータ） (2020-10-12T19:42:25Z)
POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文参考訳（メタデータ） (2020-05-01T18:11:54Z)
Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。 IWSLT2011データセットを用いて実験を行った。
論文参考訳（メタデータ） (2020-04-01T06:19:56Z)
Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文参考訳（メタデータ） (2020-02-17T08:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。