論文の概要: Extracting domain-specific terms using contextual word embeddings
- arxiv url: http://arxiv.org/abs/2502.17278v1
- Date: Mon, 24 Feb 2025 16:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:07.583828
- Title: Extracting domain-specific terms using contextual word embeddings
- Title(参考訳): 文脈単語埋め込みを用いたドメイン固有用語の抽出
- Authors: Andraž Repar, Nada Lavrač, Senja Pollak,
- Abstract要約: 本稿では,用語抽出のための新しい機械学習手法を提案する。
従来の用語抽出システムの特徴と、文脈単語の埋め込みから派生した新しい文脈特徴を組み合わせる。
われわれのアプローチは、これまでの最先端よりもF1スコアの点で大幅に改善されている。
- 参考スコア(独自算出の注目度): 2.7941582470640784
- License:
- Abstract: Automated terminology extraction refers to the task of extracting meaningful terms from domain-specific texts. This paper proposes a novel machine learning approach to terminology extraction, which combines features from traditional term extraction systems with novel contextual features derived from contextual word embeddings. Instead of using a predefined list of part-of-speech patterns, we first analyse a new term-annotated corpus RSDO5 for the Slovenian language and devise a set of rules for term candidate selection and then generate statistical, linguistic and context-based features. We use a support-vector machine algorithm to train a classification model, evaluate it on the four domains (biomechanics, linguistics, chemistry, veterinary) of the RSDO5 corpus and compare the results with state-of-art term extraction approaches for the Slovenian language. Our approach provides significant improvements in terms of F1 score over the previous state-of-the-art, which proves that contextual word embeddings are valuable for improving term extraction.
- Abstract(参考訳): 自動用語抽出(Automated terminology extract)とは、ドメイン固有のテキストから意味のある用語を抽出するタスクである。
本稿では,従来の用語抽出システムと文脈単語の埋め込みから派生した新しい文脈特徴を組み合わせた,用語抽出のための新しい機械学習手法を提案する。
音声の一部パターンのリストを事前に定義する代わりに、スロベニア語で新たに注釈付きコーパスRSDO5を解析し、項候補選択のためのルールセットを考案し、統計的、言語学的、文脈的特徴を生成する。
本研究では,RSDO5コーパスの4つの領域(バイオメカニクス,言語学,化学,獣医学)で分類モデルを学習し,その結果をスロベニア語の最先端項抽出手法と比較する。
提案手法は, 単語の文脈埋め込みが項抽出の改善に有用であることを証明し, F1スコアを従来よりも大幅に改善する。
関連論文リスト
- Deep Learning and Natural Language Processing in the Field of Construction [0.09208007322096533]
まず,建築分野における技術仕様の収集から用語を抽出するコーパス解析手法について述べる。
次に、言語パターンとインターネットクエリを用いてプルーニングのステップを実行し、最終用語の質を向上させる。
次に,各単語の埋め込みモデルと組み合わせをベースとした機械学習手法を提案し,抽出した用語からハイパーネムを検出する。
論文 参考訳(メタデータ) (2025-01-14T07:53:44Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - A bilingual approach to specialised adjectives through word embeddings
in the karstology domain [3.92181732547846]
単語埋め込みを用いた特定の意味関係を表現する形容詞の抽出実験を行う。
実験の結果は徹底的に分析され、形式的または意味的な類似性を示す形容詞のグループに分類される。
論文 参考訳(メタデータ) (2022-03-31T08:27:15Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Unsupervised Technical Domain Terms Extraction using Term Extractor [9.23545668304066]
用語抽出の目的は、与えられたコーパスから関連する単語またはフレーズを自動的に抽出することです。
本稿では,チャンキング,プリプロセッシング,ランク付けといったドメイン固有項を考慮した,監視されていない自動ドメイン用語抽出手法に注目する。
論文 参考訳(メタデータ) (2021-01-22T09:24:09Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Distributional semantic modeling: a revised technique to train term/word
vector space models applying the ontology-related approach [36.248702416150124]
ニューラルネットワークを用いた分散項表現(あるいは項埋め込み)学習による分布意味モデリングのための新しい手法を設計する。
Vec2graphは、動的かつインタラクティブなグラフとして単語埋め込み(私たちの場合の長期埋め込み)を視覚化するためのPythonライブラリである。
論文 参考訳(メタデータ) (2020-03-06T18:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。