論文の概要: Analysis and representation of Igbo text document for a text-based
system
- arxiv url: http://arxiv.org/abs/2009.06376v1
- Date: Sat, 5 Sep 2020 19:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:02:58.906231
- Title: Analysis and representation of Igbo text document for a text-based
system
- Title(参考訳): テキストベースシステムにおけるIgboテキスト文書の分析と表現
- Authors: Ifeanyi-Reuben Nkechi J., Ugwu Chidiebere, Adegbola Tunde
- Abstract要約: 本論文の関心はIgbo言語であり, 複合語を共通語として用い, 複合語の語彙も多数持っている。
これらの複合語を扱うあいまいさは、イグボ語のテキスト文書の表現を非常に困難にしている。
本稿では,その複合性を考慮したIgbo言語テキストの解析を行い,その表現をWordベースのN-gramモデルで記述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement in Information Technology (IT) has assisted in inculcating
the three Nigeria major languages in text-based application such as text
mining, information retrieval and natural language processing. The interest of
this paper is the Igbo language, which uses compounding as a common type of
word formation and as well has many vocabularies of compound words. The issues
of collocation, word ordering and compounding play high role in Igbo language.
The ambiguity in dealing with these compound words has made the representation
of Igbo language text document very difficult because this cannot be addressed
using the most common and standard approach of the Bag-Of-Words (BOW) model of
text representation, which ignores the word order and relation. However, this
cause for a concern and the need to develop an improved model to capture this
situation. This paper presents the analysis of Igbo language text document,
considering its compounding nature and describes its representation with the
Word-based N-gram model to properly prepare it for any text-based application.
The result shows that Bigram and Trigram n-gram text representation models
provide more semantic information as well addresses the issues of compounding,
word ordering and collocations which are the major language peculiarities in
Igbo. They are likely to give better performance when used in any Igbo
text-based system.
- Abstract(参考訳): 情報技術(IT)の進歩は、テキストマイニング、情報検索、自然言語処理などのテキストベースの応用において、ナイジェリアの主要3言語を育成する助けとなった。
本論文の興味はigbo言語であり、複合語を単語形成の一般的なタイプとして用い、また複合語の語彙も数多く持っている。
コロケーション、単語順序付け、複合化の問題は、Igbo言語において大きな役割を果たしている。
これらの複合語を扱うあいまいさは、単語の順序や関係を無視するBag-Of-Words(BOW)モデルの最も一般的で標準的なアプローチでは対処できないため、Igbo言語のテキスト文書の表現を非常に困難にしている。
しかし、これは問題の原因であり、この状況を捉えるために改良されたモデルを開発する必要がある。
本稿では,その複合性を考慮したIgbo言語テキストの解析を行い,その表現をWordベースのN-gramモデルで記述し,任意のテキストベースアプリケーションに対して適切に準備する。
その結果,Bigram と Trigram n-gram のテキスト表現モデルの方が意味情報を提供し,Igbo の主要な言語の特徴である複合化や単語順序付け,コロケーションの問題にも対処できることがわかった。
Igboテキストベースのシステムで使用すると、パフォーマンスが向上する可能性が高い。
関連論文リスト
- BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer [3.1742013359102175]
本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
論文 参考訳(メタデータ) (2023-11-06T13:02:07Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Comparative Analysis of N-gram Text Representation on Igbo Text Document
Similarity [0.0]
情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。
ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
論文 参考訳(メタデータ) (2020-04-01T12:24:47Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。