Fugu-MT 論文翻訳(概要): Using LSTM and GRU With a New Dataset for Named Entity Recognition in the Arabic Language

論文の概要: Using LSTM and GRU With a New Dataset for Named Entity Recognition in the Arabic Language

arxiv url: http://arxiv.org/abs/2304.03399v1
Date: Thu, 6 Apr 2023 22:14:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-10 13:31:09.464093
Title: Using LSTM and GRU With a New Dataset for Named Entity Recognition in the Arabic Language
Title（参考訳）: アラビア語における名前付きエンティティ認識のための新しいデータセットを用いたLSTMとGRU
Authors: Alaa Shaker, Alaa Aldarf and Igor Bessmertny
Abstract要約: BIOESフォーマットを使って単語をタグ付けすることで、ネストした名前エンティティを処理できます。本研究は、アラビア語で名前付きエンティティ認識モデルを構築するために、長期記憶ユニット(LSTM)とGRU(Gated Recurrent Units)を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Named entity recognition (NER) is a natural language processing task (NLP), which aims to identify named entities and classify them like person, location, organization, etc. In the Arabic language, we can find a considerable size of unstructured data, and it needs to different preprocessing tool than languages like (English, Russian, German...). From this point, we can note the importance of building a new structured dataset to solve the lack of structured data. In this work, we use the BIOES format to tag the word, which allows us to handle the nested name entity that consists of more than one sentence and define the start and the end of the name. The dataset consists of more than thirty-six thousand records. In addition, this work proposes long short term memory (LSTM) units and Gated Recurrent Units (GRU) for building the named entity recognition model in the Arabic language. The models give an approximately good result (80%) because LSTM and GRU models can find the relationships between the words of the sentence. Also, use a new library from Google, which is Trax and platform Colab
Abstract（参考訳）: 名前付きエンティティ認識(NER)は自然言語処理タスク(NLP)であり、名前付きエンティティを識別し、人、場所、組織などとして分類することを目的としている。アラビア語では、構造化されていないデータのかなりのサイズを見つけることができ、(英語、ロシア語、ドイツ語など)言語とは異なる事前処理ツールが必要である。この点から、構造化データの欠如を解決するために、新しい構造化データセットを構築することが重要であることに留意する。この作業では、単語をタグ付けするためにBIIOESフォーマットを使用し、複数の文からなるネストされた名前エンティティを処理し、名前の開始と終了を定義する。データセットは3万6千以上のレコードで構成されている。さらに本研究では,アラビア語で名前付きエンティティ認識モデルを構築するためのlong short term memory (lstm) と gated recurrent units (gru) を提案する。 LSTMとGRUモデルは文の単語間の関係を見つけることができるので、モデルはほぼ良い結果(80%)が得られる。また、traxとplatform colabというgoogleの新しいライブラリも使用します。

関連論文リスト

Language Independent Named Entity Recognition via Orthogonal Transformation of Word Vectors [0.653768519868854]
単語埋め込みを用いた双方向LSTM/CRFを用いて、任意の言語に対して名前付きエンティティ認識を行うモデルを提案する。これは、ソース言語(英語)のモデルをトレーニングし、ターゲット言語からソース言語の単語埋め込みに変換することで実現される。モデルは、英語データセット上でモデルをトレーニングすることにより、アラビア語のデータセット上でモデルをトレーニングしたり微調整したりすることなく、アラビア語データセット内の名前付きエンティティを検出することができることを示している。
論文参考訳（メタデータ） (2025-03-18T21:57:58Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文参考訳（メタデータ） (2024-01-23T17:58:38Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。 We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。分割のための専用モデルを訓練するための新しい手法を導入する。
論文参考訳（メタデータ） (2023-05-23T16:32:27Z)
Building Multilingual Corpora for a Complex Named Entity Recognition and Classification Hierarchy using Wikipedia and DBpedia [0.0]
多言語および階層型並列コーパスであるUNERデータセットについて述べる。我々は,このタイプのデータセットを,DBpedia情報を備えたウィキペディアで利用可能なあらゆる言語で作成するために必要な開発手順について詳述する。
論文参考訳（メタデータ） (2022-12-14T11:38:48Z)
AsNER -- Annotated Dataset and Baseline for Assamese Named Entity recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文参考訳（メタデータ） (2022-07-07T16:45:55Z)
Part-of-Speech Tagging of Odia Language Using statistical and Deep Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文参考訳（メタデータ） (2022-07-07T12:15:23Z)
CREER: A Large-Scale Corpus for Relation Extraction and Entity Recognition [9.54366784050374]
CREERデータセットはStanford CoreNLP Annotatorを使用して、ウィキペディアのプレーンテキストからリッチ言語構造をキャプチャする。このデータセットは広く使われている言語およびセマンティックアノテーションに従い、ほとんどの自然言語処理タスクだけでなくデータセットのスケーリングにも使用できる。
論文参考訳（メタデータ） (2022-04-27T05:43:21Z)
Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文参考訳（メタデータ） (2021-03-23T13:25:55Z)
Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文参考訳（メタデータ） (2021-01-14T18:32:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。