論文の概要: Language Independent Named Entity Recognition via Orthogonal Transformation of Word Vectors
- arxiv url: http://arxiv.org/abs/2503.14755v1
- Date: Tue, 18 Mar 2025 21:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:51.815549
- Title: Language Independent Named Entity Recognition via Orthogonal Transformation of Word Vectors
- Title(参考訳): 単語ベクトルの直交変換による言語独立型エンティティ認識
- Authors: Omar E. Rakha, Hazem M. Abbas,
- Abstract要約: 単語埋め込みを用いた双方向LSTM/CRFを用いて、任意の言語に対して名前付きエンティティ認識を行うモデルを提案する。
これは、ソース言語(英語)のモデルをトレーニングし、ターゲット言語からソース言語の単語埋め込みに変換することで実現される。
モデルは、英語データセット上でモデルをトレーニングすることにより、アラビア語のデータセット上でモデルをトレーニングしたり微調整したりすることなく、アラビア語データセット内の名前付きエンティティを検出することができることを示している。
- 参考スコア(独自算出の注目度): 0.653768519868854
- License:
- Abstract: Word embeddings have been a key building block for NLP in which models relied heavily on word embeddings in many different tasks. In this paper, a model is proposed based on using Bidirectional LSTM/CRF with word embeddings to perform named entity recognition for any language. This is done by training a model on a source language (English) and transforming word embeddings from the target language into word embeddings of the source language by using an orthogonal linear transformation matrix. Evaluation of the model shows that by training a model on an English dataset the model was capable of detecting named entities in an Arabic dataset without neither training or fine tuning the model on an Arabic language dataset.
- Abstract(参考訳): 単語埋め込みは多くの異なるタスクにおける単語埋め込みに大きく依存するNLPにとって、単語埋め込みは重要なビルディングブロックである。
本稿では,任意の言語に対して名前付きエンティティ認識を行うために,単語埋め込みを用いた双方向LSTM/CRFを用いたモデルを提案する。
これは、ソース言語(英語)のモデルをトレーニングし、直交線形変換行列を用いて、ターゲット言語からソース言語の単語埋め込みに変換することによって行われる。
モデルは、英語データセット上でモデルをトレーニングすることにより、アラビア語のデータセット上でモデルをトレーニングしたり微調整したりすることなく、アラビア語データセット内の名前付きエンティティを検出することができることを示している。
関連論文リスト
- CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - AraELECTRA: Pre-Training Text Discriminators for Arabic Language
Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。
我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。
AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文 参考訳(メタデータ) (2020-12-31T09:35:39Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。