論文の概要: A Distributed Automatic Domain-Specific Multi-Word Term Recognition
Architecture using Spark Ecosystem
- arxiv url: http://arxiv.org/abs/2305.16343v1
- Date: Wed, 24 May 2023 10:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:14:16.273962
- Title: A Distributed Automatic Domain-Specific Multi-Word Term Recognition
Architecture using Spark Ecosystem
- Title(参考訳): Sparkエコシステムを用いた分散自動ドメイン特化マルチワード認識アーキテクチャ
- Authors: Ciprian-Octavian Truic\u{a} and Neculai-Ovidiu Istrate and
Elena-Simona Apostol
- Abstract要約: ドメイン固有の用語を自動的に抽出する分散Sparkベースのアーキテクチャを提案する。
2つの実世界のデータセットで実験を行うことで、アーキテクチャの実現性を実証的に証明する。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Term Recognition is used to extract domain-specific terms that
belong to a given domain. In order to be accurate, these corpus and
language-dependent methods require large volumes of textual data that need to
be processed to extract candidate terms that are afterward scored according to
a given metric. To improve text preprocessing and candidate terms extraction
and scoring, we propose a distributed Spark-based architecture to automatically
extract domain-specific terms. The main contributions are as follows: (1)
propose a novel distributed automatic domain-specific multi-word term
recognition architecture built on top of the Spark ecosystem; (2) perform an
in-depth analysis of our architecture in terms of accuracy and scalability; (3)
design an easy-to-integrate Python implementation that enables the use of Big
Data processing in fields such as Computational Linguistics and Natural
Language Processing. We prove empirically the feasibility of our architecture
by performing experiments on two real-world datasets.
- Abstract(参考訳): 自動用語認識は、与えられたドメインに属するドメイン固有の用語を抽出するために使用される。
正確に言うと、これらのコーパスと言語依存の手法は、与えられたメトリクスに従って後付けされる候補語を抽出するために処理される大量のテキストデータを必要とする。
テキスト前処理と候補項抽出とスコアリングを改善するために,ドメイン固有用語を自動的に抽出する分散Sparkベースのアーキテクチャを提案する。
主なコントリビューションは,(1)Sparkエコシステム上に構築された新しい分散ドメイン固有のマルチワード認識アーキテクチャの提案,(2)正確性とスケーラビリティの観点からアーキテクチャの詳細な分析を行う,(3)計算言語学や自然言語処理などの分野におけるビッグデータ処理の利用を可能にする,容易に統合可能なPython実装の設計。
2つの実世界のデータセットで実験を行うことで、アーキテクチャの実現性を実証的に証明する。
関連論文リスト
- DORIC : Domain Robust Fine-Tuning for Open Intent Clustering through
Dependency Parsing [14.709084509818474]
DSTC11-Track2は、ゼロショット、クロスドメイン、インテントセットインジェクションのためのベンチマークを提供することを目的としている。
複数ドメインの対話データセットを利用して言語モデルを微調整し,Verb-Objectペアの抽出を提案する。
提案手法は精度スコアにおいて3位となり,ベースラインモデルよりも精度が向上し,相互情報(NMI)スコアが正常化した。
論文 参考訳(メタデータ) (2023-03-17T08:12:36Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - Extracting Domain-specific Concepts from Large-scale Linked Open Data [0.0]
提案手法は,LOD語彙を対象ドメインに関連する用語とリンクすることにより,検索エンティティを定義する。
対象領域における概念的関係の範囲を決定するために,共通上層実体の発生と経路の連鎖関係について検討した。
論文 参考訳(メタデータ) (2021-11-22T10:25:57Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain [3.928604516640069]
ArcheoBERTje はオランダの考古学文献で事前訓練されたBERTモデルである。
完全なコレクション上でのBERTモデルの語彙と出力の違いを分析する。
論文 参考訳(メタデータ) (2021-06-14T20:26:19Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。