Fugu-MT 論文翻訳(概要): LSCP: Enhanced Large Scale Colloquial Persian Language Understanding

論文の概要: LSCP: Enhanced Large Scale Colloquial Persian Language Understanding

arxiv url: http://arxiv.org/abs/2003.06499v1
Date: Fri, 13 Mar 2020 22:24:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 00:56:12.953412
Title: LSCP: Enhanced Large Scale Colloquial Persian Language Understanding
Title（参考訳）: LSCP: 大規模語彙ペルシャ語理解の強化
Authors: Hadi Abdi Khojasteh, Ebrahim Ansari, Mahdi Bohlouli
Abstract要約: ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
参考スコア（独自算出の注目度）: 2.7249643773851724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language recognition has been significantly advanced in recent years by means of modern machine learning methods such as deep learning and benchmarks with rich annotations. However, research is still limited in low-resource formal languages. This consists of a significant gap in describing the colloquial language especially for low-resourced ones such as Persian. In order to target this gap for low resource languages, we propose a "Large Scale Colloquial Persian Dataset" (LSCP). LSCP is hierarchically organized in a semantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. This encompasses the recognition of multiple semantic aspects in the human-level sentences, which naturally captures from the real-world sentences. We believe that further investigations and processing, as well as the application of novel algorithms and methods, can strengthen enriching computerized understanding and processing of low resource languages. The proposed corpus consists of 120M sentences resulted from 27M tweets annotated with parsing tree, part-of-speech tags, sentiment polarity and translation in five different languages.
Abstract（参考訳）: 近年,ディープラーニングやリッチアノテーションによるベンチマークなど,現代的な機械学習手法によって,言語認識が大幅に進歩している。しかし、研究は低リソースの形式言語ではまだ限られている。これは、特にペルシャ語のような低資源の言語について、口語を記述する際の大きなギャップで構成されている。低リソース言語でこのギャップを想定するために,我々は"大規模言語ペルシャデータセット" (lscp) を提案する。 LSCPは、多タスクの非公式ペルシア語理解を包括的問題とする意味分類において階層的に組織化されている。これは、現実世界の文から自然に捉えられる人間レベルの文における複数の意味的側面の認識を含む。我々は、さらなる調査と処理、および新しいアルゴリズムと手法の適用により、低リソース言語のコンピュータ化された理解と処理を強化することができると信じている。提案したコーパスは,2700万件のツイートに解析木,音声タグ,感情の極性,5つの言語で注釈付けされた文からなる。

関連論文リスト

Tokenization Matters: Improving Zero-Shot NER for Indic Languages [2.964265227875254]
トークン化は自然言語処理(NLP)の重要な構成要素であるこの研究は、BPE、SentencePiece、およびIndic言語を用いた文字レベルのトークン化戦略を体系的に比較する。その結果、SentencePieceは低リソースのIndic言語において、NERのBPEよりも一貫して優れたパフォーマンスのアプローチであることがわかった。
論文参考訳（メタデータ） (2025-04-23T17:28:38Z)
The Zeno's Paradox of `Low-Resource' Languages [20.559416975723142]
いくつかの相互作用する軸が、言語の低リソース化にどのように寄与するかを示す。私たちの研究は、論文で使われている用語の明確な定義を導き出すことを願っています。
論文参考訳（メタデータ） (2024-10-28T08:05:34Z)
Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment [13.997006139875563]
低リソース言語における言語間単語表現は、特に現在のモデルにおける高リソース言語における単語表現と一致していない。そこで本研究では,既製の単語アライメントモデルを用いて,英語と低リソース言語8言語間の単語アライメントを明確にする新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-03T05:58:53Z)
Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文参考訳（メタデータ） (2023-11-21T09:59:29Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文参考訳（メタデータ） (2022-10-25T23:13:53Z)
A simple language-agnostic yet very strong baseline system for hate speech and offensive content identification [0.0]
古典的な教師付きアルゴリズムに基づくシステムは、文字n-gramのみを供給し、したがって完全に言語に依存しないシステムを提案する。英語では中程度のパフォーマンスに達しており、ディープラーニングアプローチの開発が容易な言語である。これらの言語の3つのタスクでパフォーマンスが平均化され、多くのディープラーニングアプローチを上回ります。
論文参考訳（メタデータ） (2022-02-05T08:09:09Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Automatically Identifying Language Family from Acoustic Examples in Low Resource Scenarios [48.57072884674938]
ディープラーニングを用いて言語類似性を解析する手法を提案する。すなわち、Willernessデータセットのモデルをトレーニングし、その潜在空間が古典的な言語家族の発見とどのように比較されるかを調べる。
論文参考訳（メタデータ） (2020-12-01T22:44:42Z)
Combining Pretrained High-Resource Embeddings and Subword Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文参考訳（メタデータ） (2020-03-09T21:30:55Z)
Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文参考訳（メタデータ） (2017-08-30T08:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。