論文の概要: Sinhala Sentence Embedding: A Two-Tiered Structure for Low-Resource
Languages
- arxiv url: http://arxiv.org/abs/2210.14472v1
- Date: Wed, 26 Oct 2022 04:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:23:31.620830
- Title: Sinhala Sentence Embedding: A Two-Tiered Structure for Low-Resource
Languages
- Title(参考訳): sinhala文埋め込み:低リソース言語のための2層構造
- Authors: Gihan Weeraprameshwara, Vihanga Jayawickrama, Nisansa de Silva,
Yudhanjaya Wijeratne
- Abstract要約: 本稿では, 感情分析領域におけるシンハラテキストの表現における, 1層, 2層埋め込みアーキテクチャの有効性について検討する。
下層が単語の埋め込みから成り、上層が文の埋め込みから成り立つ2層埋め込みアーキテクチャは、1層よりも優れた単語埋め込みを実現することが証明されている。
ディープニューラルネットワーク構造は、関連するテキストをエンコードするために使用される埋め込みシステムを使用して、感情データに基づいて訓練されている。
- 参考スコア(独自算出の注目度): 0.41783829807634776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the process of numerically modeling natural languages, developing language
embeddings is a vital step. However, it is challenging to develop functional
embeddings for resource-poor languages such as Sinhala, for which sufficiently
large corpora, effective language parsers, and any other required resources are
difficult to find. In such conditions, the exploitation of existing models to
come up with an efficacious embedding methodology to numerically represent text
could be quite fruitful. This paper explores the effectivity of several
one-tiered and two-tiered embedding architectures in representing Sinhala text
in the sentiment analysis domain. With our findings, the two-tiered embedding
architecture where the lower-tier consists of a word embedding and the
upper-tier consists of a sentence embedding has been proven to perform better
than one-tier word embeddings, by achieving a maximum F1 score of 88.04% in
contrast to the 83.76% achieved by word embedding models. Furthermore,
embeddings in the hyperbolic space are also developed and compared with
Euclidean embeddings in terms of performance. A sentiment data set consisting
of Facebook posts and associated reactions have been used for this research. To
effectively compare the performance of different embedding systems, the same
deep neural network structure has been trained on sentiment data with each of
the embedding systems used to encode the text associated.
- Abstract(参考訳): 自然言語を数値的にモデル化する過程では、言語埋め込みの開発が不可欠である。
しかし、十分に大きなコーパス、効果的な言語パーサ、その他の必要なリソースを見つけるのが困難であるSinhalaのような資源不足言語のための機能的な埋め込みを開発することは困難である。
このような状況下では、テキストを数値的に表現する効果的な埋め込み手法を考案する既存のモデルの利用は非常に実りある。
本稿では,感情分析領域におけるシンハラテキストの表現における,一層および二層埋め込みアーキテクチャの効果について検討する。
その結果,下層が単語埋め込み,上層が文埋め込みからなる2層埋め込みアーキテクチャは,単語埋め込みモデルによって達成された83.76%とは対照的に,最大F1スコア88.04%を達成し,一層埋め込みよりも優れた文埋め込みを実現することが証明された。
さらに、双曲空間への埋め込みも開発され、性能の観点からユークリッド埋め込みと比較される。
この研究には、Facebook投稿と関連する反応からなる感情データセットが使用されている。
異なる埋め込みシステムの性能を効果的に比較するために、同じディープニューラルネットワーク構造が、関連するテキストをエンコードするために使用される埋め込みシステムと感情データに基づいて訓練されている。
関連論文リスト
- BERT or FastText? A Comparative Analysis of Contextual as well as Non-Contextual Embeddings [0.4194295877935868]
埋め込みの選択は、NLPタスクのパフォーマンス向上に重要な役割を果たす。
本研究では,Marathi言語固有のNLP分類タスクに,コンテキストBERTベース,非コンテキストBERTベース,FastTextベースの様々な埋め込み技術が与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-26T18:25:57Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Relational Embeddings for Language Independent Stance Detection [4.492444446637856]
本稿では,リレーショナル埋め込みを生成することで,友人やリツイートなどのソーシャル情報を活用する新しい手法を提案する。
我々の手法は手動のチューニングなしに任意の言語やターゲットに適用できる。
論文 参考訳(メタデータ) (2022-10-11T18:13:43Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - On the Effects of Using word2vec Representations in Neural Networks for
Dialogue Act Recognition [0.6767885381740952]
文中の単語列をキャプチャする再帰モデルを探索するディープニューラルネットワークを提案する。
このモデルを英語、フランス語、チェコ語という3つの言語で検証する。
論文 参考訳(メタデータ) (2020-10-22T07:21:17Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。