論文の概要: Development of a General Purpose Sentiment Lexicon for Igbo Language
- arxiv url: http://arxiv.org/abs/2004.14176v1
- Date: Fri, 24 Apr 2020 22:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 03:07:59.924149
- Title: Development of a General Purpose Sentiment Lexicon for Igbo Language
- Title(参考訳): igbo言語のための汎用感情語彙の開発
- Authors: Emeka Ogbuju and Moses Onyesolu
- Abstract要約: この研究は、Igbo言語に対する汎用的な感情のレキシコンを生み出している。
英語に翻訳することなく、イグボ語で書かれた文書の感情を決定することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are publicly available general purpose sentiment lexicons in some high
resource languages but very few exist in the low resource languages. This makes
it difficult to directly perform sentiment analysis tasks in such languages.
The objective of this work is to create a general purpose sentiment lexicon for
the Igbo language that can determine the sentiment of documents written in the
Igbo language without having to translate it to the English language. The
material used was an automatically translated lexicon by Liu and the manual
addition of Igbo native words. The result of this work is a general purpose
lexicon called IgboSentilex. The performance was tested on the BBC Igbo news
channel. It returned an average polarity agreement of 95.75 percent with other
general purpose sentiment lexicons.
- Abstract(参考訳): 高資源言語には公に利用可能な汎用感情語彙が存在するが、低資源言語にはほとんど存在しない。
これにより、このような言語で感情分析タスクを直接実行するのが難しくなる。
本研究の目的は、Igbo言語に翻訳することなく、Igbo言語で書かれた文書の感情を決定できる汎用的な感情辞書を作ることである。
使用された資料は、liuが自動翻訳した辞書と、igboのネイティブワードを手作業で追加したものである。
この研究の結果はIgboSentilexと呼ばれる汎用の辞書である。
パフォーマンスはBBCのIgboニュースチャンネルでテストされた。
他の汎用的な感情レキシコンと95.75パーセントの平均的な極性合意を返した。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - Language Lexicons for Hindi-English Multilingual Text Processing [0.0]
現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。
ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
論文 参考訳(メタデータ) (2021-06-29T05:42:54Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z) - Analysis and representation of Igbo text document for a text-based
system [0.0]
本論文の関心はIgbo言語であり, 複合語を共通語として用い, 複合語の語彙も多数持っている。
これらの複合語を扱うあいまいさは、イグボ語のテキスト文書の表現を非常に困難にしている。
本稿では,その複合性を考慮したIgbo言語テキストの解析を行い,その表現をWordベースのN-gramモデルで記述する。
論文 参考訳(メタデータ) (2020-09-05T19:07:17Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Learning and Evaluating Emotion Lexicons for 91 Languages [10.06987680744477]
本稿では,任意の対象言語に対して,ほぼ任意に大きな感情辞書を作成する手法を提案する。
我々は8つの感情変数と100k以上の語彙エントリからなる表現に富んだ高被覆語彙を生成する。
我々の手法は、辞書作成に対する最先端のモノリンガルなアプローチと一致し、一部の言語や変数に対する人間の信頼性を超越した結果をもたらす。
論文 参考訳(メタデータ) (2020-05-12T10:32:03Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。