論文の概要: Khmer Word Search: Challenges, Solutions, and Semantic-Aware Search
- arxiv url: http://arxiv.org/abs/2112.08918v1
- Date: Thu, 16 Dec 2021 14:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 19:33:12.146173
- Title: Khmer Word Search: Challenges, Solutions, and Semantic-Aware Search
- Title(参考訳): Khmer Word Search:挑戦、解決、セマンティック・アウェア検索
- Authors: Rina Buoy and Nguonly Taing and Sovisal Chenda
- Abstract要約: 複数の文字の順序と異なる単語のスペル認識は、クメール語検索機能に制約を課す。
堅牢なスペルチェッカーは入力デバイスプラットフォームで一般的に利用できないため、スペルミスは一般的である。
提案手法は文字順正規化, 音素ベースのスペルチェッカー, Khmerワードセマンティックモデルなどである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search is one of the key functionalities in digital platforms and
applications such as an electronic dictionary, a search engine, and an
e-commerce platform. While the search function in some languages is trivial,
Khmer word search is challenging given its complex writing system. Multiple
orders of characters and different spelling realizations of words impose a
constraint on Khmer word search functionality. Additionally, spelling mistakes
are common since robust spellcheckers are not commonly available across the
input device platforms. These challenges hinder the use of Khmer language in
search-embedded applications. Moreover, due to the absence of WordNet-like
lexical databases for Khmer language, it is impossible to establish semantic
relation between words, enabling semantic search. In this paper, we propose a
set of robust solutions to the above challenges associated with Khmer word
search. The proposed solutions include character order normalization, grapheme
and phoneme-based spellcheckers, and Khmer word semantic model. The semantic
model is based on the word embedding model that is trained on a 30-million-word
corpus and is used to capture the semantic similarities between words.
- Abstract(参考訳): 検索は、電子辞書、検索エンジン、eコマースプラットフォームなどのデジタルプラットフォームやアプリケーションにおける重要な機能のひとつです。
いくつかの言語の検索関数は自明であるが、クメール語の検索は複雑な記述システムを考えると困難である。
複数の文字の順序と異なる単語のスペル認識は、クメール語検索機能に制約を課す。
加えて、スペルチェックは入力デバイスプラットフォームで一般的に利用できないため、スペルミスは一般的である。
これらの課題は、検索埋め込みアプリケーションにおけるkhmer言語の使用を妨げる。
さらに、クメール言語にはwordnetのような語彙データベースがないため、単語間の意味関係を確立することは不可能であり、意味検索を可能にする。
本稿では,上記のクメール語探索に関する課題に対するロバストな解決法を提案する。
提案手法は文字順正規化, 音素ベースのスペルチェッカー, Khmerワードセマンティックモデルなどである。
意味モデルは、3000万語コーパスで訓練された単語埋め込みモデルに基づいており、単語間の意味的類似性を捉えるために使用される。
関連論文リスト
- A Survey on Importance of Homophones Spelling Correction Model for Khmer Authors [0.0]
ホモフォンは発音の類似性や意味や綴りが異なるため、あらゆる言語の著者にとって重要な課題である。
本研究は、Khmer著者がホモフォンを執筆に用いた際の困難に対処することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T10:07:03Z) - Khmer Semantic Search Engine (KSE): Digital Information Access and Document Retrieval [0.0]
クメールのコンテンツは毎日発生しているが、カンボジア人は必要な文書を見つけるのに苦労している。
Googleでさえ、Khmerコンテンツに対して高い精度を提供していない。
本研究は,Khmer Semantic Search Engine (KSE) を提案する。
論文 参考訳(メタデータ) (2024-06-13T16:58:02Z) - KSW: Khmer Stop Word based Dictionary for Keyword Extraction [0.0]
本稿では,Khmer固有のキーワード抽出手法であるKSWについて紹介する。
KSWはこの問題に対処するため、調整済みの停止語辞書を開発し、停止語を削除するための前処理手法を実装した。
実験により、KSWは従来の手法に比べて精度と妥当性が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2024-05-27T17:42:54Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Keyword Embeddings for Query Suggestion [3.7900158137749322]
本稿では,科学文献に基づいて学習したキーワード提案タスクのための2つの新しいモデルを提案する。
我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。
我々は,タスクのベースラインよりも大幅に改善された,最先端の単語と文の埋め込みモデルに対する提案を評価した。
論文 参考訳(メタデータ) (2023-01-19T11:13:04Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Quotient Space-Based Keyword Retrieval in Sponsored Search [7.639289301435027]
代名詞検索は, 代名詞検索において重要な問題となっている。
本稿では,この問題に対処する新しい空間探索フレームワークを提案する。
この方法はBaiduのオンライン検索システムでうまく実装されている。
論文 参考訳(メタデータ) (2021-05-26T07:27:54Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。