論文の概要: Investigating Bi-LSTM and CRF with POS Tag Embedding for Indonesian
Named Entity Tagger
- arxiv url: http://arxiv.org/abs/2009.05687v1
- Date: Fri, 11 Sep 2020 23:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 20:49:41.028879
- Title: Investigating Bi-LSTM and CRF with POS Tag Embedding for Indonesian
Named Entity Tagger
- Title(参考訳): Bi-LSTM と CRF の POS Tag Embedding によるインドネシア語 Entity Tagger の検証
- Authors: Devin Hoesen (1), Ayu Purwarianti (2) ((1) Prosa.ai, (2) Institut
Teknologi Bandung)
- Abstract要約: NEタグの最先端である長短期記憶(LSTM)をトポロジーとして用いている。
POSタグの埋め込みを追加入力として使用すると、インドネシアのNEタグガーのパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researches on Indonesian named entity (NE) tagger have been conducted since
years ago. However, most did not use deep learning and instead employed
traditional machine learning algorithms such as association rule, support
vector machine, random forest, na\"ive bayes, etc. In those researches, word
lists as gazetteers or clue words were provided to enhance the accuracy. Here,
we attempt to employ deep learning in our Indonesian NE tagger. We use long
short-term memory (LSTM) as the topology since it is the state-of-the-art of NE
tagger. By using LSTM, we do not need a word list in order to enhance the
accuracy. Basically, there are two main things that we investigate. The first
is the output layer of the network: Softmax vs conditional random field (CRF).
The second is the usage of part of speech (POS) tag embedding input layer.
Using 8400 sentences as the training data and 97 sentences as the evaluation
data, we find that using POS tag embedding as additional input improves the
performance of our Indonesian NE tagger. As for the comparison between Softmax
and CRF, we find that both architectures have a weakness in classifying an NE
tag.
- Abstract(参考訳): インドネシア名実体(ne)タガーの研究は数年前から行われている。
しかし、多くはディープラーニングを使用しておらず、代わりにアソシエーションルール、サポートベクターマシン、ランダムフォレスト、na\"ライブベイなど、従来の機械学習アルゴリズムを採用した。
それらの研究において,視線や手がかり語としての単語リストが提供され,精度が向上した。
ここでは、インドネシアのne taggerでディープラーニングを採用しようとしています。
NEタグの最先端である長短期記憶(LSTM)をトポロジーとして用いている。
LSTMを用いることで、精度を高めるために単語リストは不要である。
基本的に、調査する主な点が2つあります。
1つ目はネットワークの出力層、ソフトマックス対条件ランダムフィールド(CRF)である。
2つ目は、音声(pos)タグ埋め込み入力層の一部の使用です。
訓練データとして8400文,評価データとして97文を用い,追加入力としてposタグを埋め込むことにより,インドネシアネタガーの性能が向上することがわかった。
softmaxとcrfの比較では、両方のアーキテクチャがneタグの分類に弱点があることが分かりました。
関連論文リスト
- Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Machine and Deep Learning Methods with Manual and Automatic Labelling
for News Classification in Bangla Language [0.36832029288386137]
本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。
MLアルゴリズムは、ロジスティック回帰(LR)、グラディエントDescent(SGD)、サポートベクトルマシン(SVM)、ランダムフォレスト(RF)、K-Nearest Neighbour(KNN)である。
本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。
論文 参考訳(メタデータ) (2022-10-19T21:53:49Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Locally-Contextual Nonlinear CRFs for Sequence Labeling [20.06731729062238]
シーケンスラベリングのための局所コンテキスト非線形CRFを提案する。
提案手法は,単語のラベルを予測する際に,隣接する埋め込み情報を直接組み込む。
私達の結果は最もよい出版された方法のそれらと競争です。
論文 参考訳(メタデータ) (2021-03-30T09:43:25Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Relation Detection for Indonesian Language using Deep Neural Network --
Support Vector Machine [0.0]
インドネシア語の2つの名前のエンティティ間の関係検出にニューラルネットワークを用いる。
単語埋め込み、位置埋め込み、POSタグ埋め込み、文字埋め込みといった機能を使用しました。
最大の成果はF1-Scoreの0.8083で、Convolutional Layerをフロントパート、SVMをバックパートとして使用しています。
論文 参考訳(メタデータ) (2020-09-12T01:45:08Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z) - When Dictionary Learning Meets Deep Learning: Deep Dictionary Learning
and Coding Network for Image Recognition with Limited Data [74.75557280245643]
本稿では,限られたデータを用いた画像認識タスクのための新しいDeep Dictionary Learning and Coding Network(DDLCN)を提案する。
DDLCNをいくつかの主要な辞書学習手法と深層学習モデルと比較した。
5つの一般的なデータセットに対する実験結果から,DDLCNはトレーニングデータに制限がある場合の最先端手法と比較して,競合的な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-05-21T23:12:10Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。