論文の概要: Comparative Analysis of N-gram Text Representation on Igbo Text Document
Similarity
- arxiv url: http://arxiv.org/abs/2004.00375v2
- Date: Tue, 4 Aug 2020 00:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 18:46:32.923454
- Title: Comparative Analysis of N-gram Text Representation on Igbo Text Document
Similarity
- Title(参考訳): イグボ文書類似度に基づくN-gramテキスト表現の比較解析
- Authors: Nkechi Ifeanyi-Reuben, Chidiebere Ugwu, Nwachukwu E.O
- Abstract要約: 情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。
ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The improvement in Information Technology has encouraged the use of Igbo in
the creation of text such as resources and news articles online. Text
similarity is of great importance in any text-based applications. This paper
presents a comparative analysis of n-gram text representation on Igbo text
document similarity. It adopted Euclidean similarity measure to determine the
similarities between Igbo text documents represented with two word-based n-gram
text representation (unigram and bigram) models. The evaluation of the
similarity measure is based on the adopted text representation models. The
model is designed with Object-Oriented Methodology and implemented with Python
programming language with tools from Natural Language Toolkits (NLTK). The
result shows that unigram represented text has highest distance values whereas
bigram has the lowest corresponding distance values. The lower the distance
value, the more similar the two documents and better the quality of the model
when used for a task that requires similarity measure. The similarity of two
documents increases as the distance value moves down to zero (0). Ideally, the
result analyzed revealed that Igbo text document similarity measured on bigram
represented text gives accurate similarity result. This will give better,
effective and accurate result when used for tasks such as text classification,
clustering and ranking on Igbo text.
- Abstract(参考訳): 情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。
テキストベースのアプリケーションでは、テキストの類似性が非常に重要です。
本稿では,Igboテキストの類似性に関するn-gramテキスト表現の比較分析を行う。
ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
類似度尺度の評価は、採用したテキスト表現モデルに基づいている。
モデルはオブジェクト指向の方法論で設計され、Pythonプログラミング言語で実装され、Natural Language Toolkits (NLTK) のツールを使用する。
その結果、ユニグラム表現されたテキストは最も高い距離値を持つのに対し、bigramは最も低い距離値を持つことがわかった。
距離値が低いほど、2つの文書がより類似し、類似度測定を必要とするタスクに使用する場合のモデルの品質が向上する。
2つの文書の類似性は、距離値が0に下がるにつれて増加する(0)。
理想的に解析した結果,bigram表現テキスト上で測定したigboテキスト文書の類似度が正確な類似性を示すことが明らかとなった。
これにより、テキスト分類、クラスタリング、Igboテキストのランキングといったタスクに使用する場合、より良く、効果的で正確な結果が得られる。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Joint Representations of Text and Knowledge Graphs for Retrieval and
Evaluation [15.55971302563369]
ニューラルネットワークの重要な特徴は、オブジェクト(テキスト、画像、スピーチなど)のセマンティックなベクトル表現を生成し、類似したオブジェクトがベクトル空間内で互いに近接していることを保証することである。
多くの研究は、他のモダリティの表現の学習に焦点を合わせてきたが、テキストや知識ベース要素の整列したクロスモーダル表現は存在しない。
論文 参考訳(メタデータ) (2023-02-28T17:39:43Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Comparing in context: Improving cosine similarity measures with a metric
tensor [0.0]
コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。
そこで我々は,そのタスクの性能向上のために,拡張されたコサイン類似度尺度を用いることを提案する。
我々は、文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、常に改善を示す。
また、SimLex-999 と WordSim-353 のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットを学習した全コンテキスト類似度尺度の独立したテストセットとして使用する。
論文 参考訳(メタデータ) (2022-03-28T18:04:26Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Analysis and representation of Igbo text document for a text-based
system [0.0]
本論文の関心はIgbo言語であり, 複合語を共通語として用い, 複合語の語彙も多数持っている。
これらの複合語を扱うあいまいさは、イグボ語のテキスト文書の表現を非常に困難にしている。
本稿では,その複合性を考慮したIgbo言語テキストの解析を行い,その表現をWordベースのN-gramモデルで記述する。
論文 参考訳(メタデータ) (2020-09-05T19:07:17Z) - MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。
教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。
提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文 参考訳(メタデータ) (2020-08-27T04:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。