論文の概要: Multi-Task Text Classification using Graph Convolutional Networks for
Large-Scale Low Resource Language
- arxiv url: http://arxiv.org/abs/2205.01204v1
- Date: Mon, 2 May 2022 20:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 02:47:41.796937
- Title: Multi-Task Text Classification using Graph Convolutional Networks for
Large-Scale Low Resource Language
- Title(参考訳): グラフ畳み込みネットワークを用いた大規模低資源言語のためのマルチタスクテキスト分類
- Authors: Mounika Marreddy, Subba Reddy Oota, Lakshmi Sireesha Vakada, Venkata
Charan Chinni, Radhika Mamidi
- Abstract要約: Graph Convolutional Networks (GCN)は、単一のテキスト分類タスクで最先端の結果を得た。
マルチタスクテキスト分類にGCNを適用することは、未調査領域である。
我々は,4つの自然言語処理(NLP)タスクに対して,単一タスクとマルチタスク設定でGCNをTelugu言語に使用することを検討した。
- 参考スコア(独自算出の注目度): 5.197307534263253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph Convolutional Networks (GCN) have achieved state-of-art results on
single text classification tasks like sentiment analysis, emotion detection,
etc. However, the performance is achieved by testing and reporting on
resource-rich languages like English. Applying GCN for multi-task text
classification is an unexplored area. Moreover, training a GCN or adopting an
English GCN for Indian languages is often limited by data availability, rich
morphological variation, syntax, and semantic differences. In this paper, we
study the use of GCN for the Telugu language in single and multi-task settings
for four natural language processing (NLP) tasks, viz. sentiment analysis (SA),
emotion identification (EI), hate-speech (HS), and sarcasm detection (SAR). In
order to evaluate the performance of GCN with one of the Indian languages,
Telugu, we analyze the GCN based models with extensive experiments on four
downstream tasks. In addition, we created an annotated Telugu dataset, TEL-NLP,
for the four NLP tasks. Further, we propose a supervised graph reconstruction
method, Multi-Task Text GCN (MT-Text GCN) on the Telugu that leverages to
simultaneously (i) learn the low-dimensional word and sentence graph embeddings
from word-sentence graph reconstruction using graph autoencoder (GAE) and (ii)
perform multi-task text classification using these latent sentence graph
embeddings. We argue that our proposed MT-Text GCN achieves significant
improvements on TEL-NLP over existing Telugu pretrained word embeddings, and
multilingual pretrained Transformer models: mBERT, and XLM-R. On TEL-NLP, we
achieve a high F1-score for four NLP tasks: SA (0.84), EI (0.55), HS (0.83) and
SAR (0.66). Finally, we show our model's quantitative and qualitative analysis
on the four NLP tasks in Telugu.
- Abstract(参考訳): グラフ畳み込みネットワーク(gcn)は、感情分析や感情検出など、単一のテキスト分類タスクで最先端の結果を達成した。
しかし、パフォーマンスは英語のようなリソース豊富な言語をテストし、レポートすることで達成される。
マルチタスクテキスト分類にGCNを適用することは未調査領域である。
さらに、GCNをトレーニングしたり、インドの言語に英語のGCNを採用することは、データ可用性、豊富な形態変化、構文、意味の違いによって制限されることが多い。
本稿では,自然言語処理 (nlp) タスク (viz. sentiment analysis (sa), emotion identification (ei), hate-speech (hs), sarcasm detection (sar) の4つのタスクに対して,telugu言語におけるgcnの使用について検討する。
インドの言語であるTeluguを用いてGCNの性能を評価するために,4つの下流タスクについて広範な実験を行い,GCNに基づくモデルの解析を行った。
さらに,4つのNLPタスクに対して,アノテーション付きTeluguデータセットTEL-NLPを作成した。
また,Telugu上のマルチタスクテキストGCN (MT-Text GCN) を同時に利用する教師付きグラフ再構成手法を提案する。
(i)グラフオートエンコーダ(gae)を用いた単語・文グラフ再構成から低次元単語・文グラフ埋め込みを学ぶ
(ii)これらの潜在文グラフ埋め込みを用いてマルチタスクテキスト分類を行う。
提案したMT-Text GCNは,既存のTelugu事前学習語埋め込みや,mBERTやXLM-Rといった多言語事前学習トランスフォーマモデルに比べて,TEL-NLPを大幅に改善した。
TEL-NLPでは,SA(0.84),EI(0.55),HS(0.83),SAR(0.66)の4つのNLPタスクに対して高いF1スコアを実現する。
最後に,テルグにおける4つのNLPタスクの定量的,定性的な分析について述べる。
関連論文リスト
- Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages [0.4499833362998489]
Chain of Translation Prompting (CoTR)は、低リソース言語における言語モデルの性能を高めるために設計された新しい戦略である。
CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。
本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。
論文 参考訳(メタデータ) (2024-09-06T17:15:17Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for
Underdocumented Languages [6.8708103492634836]
何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。
ターゲット言語の専門知識が利用可能であれば、IGTデータをうまく活用できると仮定する。
本研究は,Tsimchianic Language Gitksanのための形態的再帰システムの構築に関する事例研究を通じて,各ステップについて解説する。
論文 参考訳(メタデータ) (2022-03-17T22:02:25Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Graph Neural Networks for Natural Language Processing: A Survey [64.36633422999905]
本稿では,自然言語処理のためのグラフニューラルネットワーク(GNN)について概観する。
我々は,グラフ構築,グラフ表現学習,グラフベースエンコーダ・デコーダモデルという3つの軸に沿って,NLP用GNNの既存の研究を組織する,NLP用GNNの新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-06-10T23:59:26Z) - Graph Convolutional Network for Swahili News Classification [78.6363825307044]
この研究は、半教師付きスワヒリニュース分類のタスクにおいて、テキストグラフ畳み込みネットワーク(Text GCN)が従来の自然言語処理ベンチマークより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-03-16T21:03:47Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。