論文の概要: Khmer Word Search: Challenges, Solutions, and Semantic-Aware Search
- arxiv url: http://arxiv.org/abs/2112.08918v1
- Date: Thu, 16 Dec 2021 14:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 19:33:12.146173
- Title: Khmer Word Search: Challenges, Solutions, and Semantic-Aware Search
- Title(参考訳): Khmer Word Search:挑戦、解決、セマンティック・アウェア検索
- Authors: Rina Buoy and Nguonly Taing and Sovisal Chenda
- Abstract要約: 複数の文字の順序と異なる単語のスペル認識は、クメール語検索機能に制約を課す。
堅牢なスペルチェッカーは入力デバイスプラットフォームで一般的に利用できないため、スペルミスは一般的である。
提案手法は文字順正規化, 音素ベースのスペルチェッカー, Khmerワードセマンティックモデルなどである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search is one of the key functionalities in digital platforms and
applications such as an electronic dictionary, a search engine, and an
e-commerce platform. While the search function in some languages is trivial,
Khmer word search is challenging given its complex writing system. Multiple
orders of characters and different spelling realizations of words impose a
constraint on Khmer word search functionality. Additionally, spelling mistakes
are common since robust spellcheckers are not commonly available across the
input device platforms. These challenges hinder the use of Khmer language in
search-embedded applications. Moreover, due to the absence of WordNet-like
lexical databases for Khmer language, it is impossible to establish semantic
relation between words, enabling semantic search. In this paper, we propose a
set of robust solutions to the above challenges associated with Khmer word
search. The proposed solutions include character order normalization, grapheme
and phoneme-based spellcheckers, and Khmer word semantic model. The semantic
model is based on the word embedding model that is trained on a 30-million-word
corpus and is used to capture the semantic similarities between words.
- Abstract(参考訳): 検索は、電子辞書、検索エンジン、eコマースプラットフォームなどのデジタルプラットフォームやアプリケーションにおける重要な機能のひとつです。
いくつかの言語の検索関数は自明であるが、クメール語の検索は複雑な記述システムを考えると困難である。
複数の文字の順序と異なる単語のスペル認識は、クメール語検索機能に制約を課す。
加えて、スペルチェックは入力デバイスプラットフォームで一般的に利用できないため、スペルミスは一般的である。
これらの課題は、検索埋め込みアプリケーションにおけるkhmer言語の使用を妨げる。
さらに、クメール言語にはwordnetのような語彙データベースがないため、単語間の意味関係を確立することは不可能であり、意味検索を可能にする。
本稿では,上記のクメール語探索に関する課題に対するロバストな解決法を提案する。
提案手法は文字順正規化, 音素ベースのスペルチェッカー, Khmerワードセマンティックモデルなどである。
意味モデルは、3000万語コーパスで訓練された単語埋め込みモデルに基づいており、単語間の意味的類似性を捉えるために使用される。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching [62.53203836521321]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Keyword Embeddings for Query Suggestion [3.7900158137749322]
本稿では,科学文献に基づいて学習したキーワード提案タスクのための2つの新しいモデルを提案する。
我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。
我々は,タスクのベースラインよりも大幅に改善された,最先端の単語と文の埋め込みモデルに対する提案を評価した。
論文 参考訳(メタデータ) (2023-01-19T11:13:04Z) - Accuracy of the Uzbek stop words detection: a case study on "School
corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
論文 参考訳(メタデータ) (2022-09-15T05:14:31Z) - LEXpander: applying colexification networks to automated lexicon
expansion [0.16804697591495946]
LEXpander は,新しいコネクティフィケーションデータを活用する辞書拡張手法である。
LEXpanderは,単語リストの精度とリコールのトレードオフの両面から,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-31T14:55:29Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Quotient Space-Based Keyword Retrieval in Sponsored Search [7.639289301435027]
代名詞検索は, 代名詞検索において重要な問題となっている。
本稿では,この問題に対処する新しい空間探索フレームワークを提案する。
この方法はBaiduのオンライン検索システムでうまく実装されている。
論文 参考訳(メタデータ) (2021-05-26T07:27:54Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。