論文の概要: Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches
- arxiv url: http://arxiv.org/abs/2207.03256v1
- Date: Thu, 7 Jul 2022 12:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 22:16:40.540152
- Title: Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches
- Title(参考訳): 統計的および深層学習に基づくオディア語の音声タギング
- Authors: Tusarkanta Dalai, Tapas Kumar Mishra and Pankaj K Sa
- Abstract要約: 本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Part-of-speech (POS) tagging is a preprocessing step of many
natural language processing (NLP) tasks such as name entity recognition (NER),
speech processing, information extraction, word sense disambiguation, and
machine translation. It has already gained a promising result in English and
European languages, but in Indian languages, particularly in Odia language, it
is not yet well explored because of the lack of supporting tools, resources,
and morphological richness of language. Unfortunately, we were unable to locate
an open source POS tagger for Odia, and only a handful of attempts have been
made to develop POS taggers for Odia language. The main contribution of this
research work is to present a conditional random field (CRF) and deep
learning-based approaches (CNN and Bidirectional Long Short-Term Memory) to
develop Odia part-of-speech tagger. We used a publicly accessible corpus and
the dataset is annotated with the Bureau of Indian Standards (BIS) tagset.
However, most of the languages around the globe have used the dataset annotated
with Universal Dependencies (UD) tagset. Hence, to maintain uniformity Odia
dataset should use the same tagset. So we have constructed a simple mapping
from BIS tagset to UD tagset. We experimented with various feature set inputs
to the CRF model, observed the impact of constructed feature set. The deep
learning-based model includes Bi-LSTM network, CNN network, CRF layer,
character sequence information, and pre-trained word vector. Character sequence
information was extracted by using convolutional neural network (CNN) and
Bi-LSTM network. Six different combinations of neural sequence labelling models
are implemented, and their performance measures are investigated. It has been
observed that Bi-LSTM model with character sequence feature and pre-trained
word vector achieved a significant state-of-the-art result.
- Abstract(参考訳): 自動パート・オブ・スパイチ(pos)タグ付けは、名前のエンティティ認識(ner)、音声処理、情報抽出、単語認識の曖昧化、機械翻訳など多くの自然言語処理(nlp)タスクの前処理ステップである。
英語やヨーロッパ語ではすでに有望な成果を上げているが、インド語、特にオディア語では、サポートツール、リソース、言語の形態的豊かさが欠如しているため、まだ十分に調査されていない。
残念ながら、私たちはOdia用のオープンソースのPOSタグを見つけることができず、Odia言語用のPOSタグを開発する試みはほんの少ししか行われていません。
本研究の主な貢献は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と双方向長短期記憶) を提供することである。
私たちは公開アクセス可能なコーパスを使用しており、データセットはインド標準局(bis)タグセットにアノテートされています。
しかし、世界中の言語のほとんどは、Universal Dependencies (UD)タグセットで注釈付けされたデータセットを使用している。
したがって、均一性を維持するために、Odiaデータセットは同じタグセットを使用する必要がある。
そこでBISタグセットからUDタグセットへの単純なマッピングを構築した。
CRFモデルに対する様々な特徴集合入力実験を行い、構成された特徴集合の影響を観察した。
ディープラーニングベースのモデルは、Bi-LSTMネットワーク、CNNネットワーク、CRF層、文字シーケンス情報、事前訓練された単語ベクトルを含む。
畳み込みニューラルネットワーク(CNN)とBi-LSTMネットワークを用いて文字シーケンス情報を抽出した。
ニューラルシーケンスラベリングモデルの6つの異なる組み合わせを実装し,その性能測定を行った。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Exploring transfer learning for Deep NLP systems on rarely annotated languages [0.0]
本論文はヒンディー語とネパール語間のPOSタグ付けにおける移動学習の適用について考察する。
ヒンディー語におけるマルチタスク学習において,ジェンダーや単数/複数タグ付けなどの補助的なタスクがPOSタグ付け精度の向上に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-15T13:33:54Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。