論文の概要: Khmer Semantic Search Engine: Digital Information Access and Document Retrieval
- arxiv url: http://arxiv.org/abs/2406.09320v1
- Date: Thu, 13 Jun 2024 16:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:35:35.083761
- Title: Khmer Semantic Search Engine: Digital Information Access and Document Retrieval
- Title(参考訳): Khmer Semantic Search Engine: デジタル情報アクセスとドキュメント検索
- Authors: Nimol Thuon,
- Abstract要約: そこで本研究では,Khmer Semantic Search Engine (KSE) を提案する。
キーワード抽出とセマンティック検索マッチングに基づく2つのセマンティック検索フレームワークを提案する。
検索項のセマンティクスの理解がより正確な結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The search engine process is crucial for document content retrieval. For Khmer documents, a tool is needed to extract essential keywords. Despite the daily generation of significant Khmer content, Cambodians struggle to find necessary documents due to the lack of an effective semantic searching tool. Even Google does not deliver high accuracy for Khmer content. Semantic search engines improve search results by employing advanced algorithms to understand various content types. With the rise in Khmer digital content such as reports, articles, and social media feedback enhanced search capabilities are essential. This research proposes the first Khmer Semantic Search Engine (KSE), designed to improve traditional Khmer search methods. Utilizing semantic matching techniques and formally annotated semantic content, our tool extracts meaningful keywords from user queries performs precise matching, and provides the best matching offline documents and online URL documents. We propose two semantic search frameworks based on keyword extraction and semantic search matching. Additionally, we developed tools for data preparation, including document addition and manual keyword extraction. To evaluate performance, we created a ground truth dataset and discussed issues related to searching and semantic search. Our findings show how understanding search term semantics can lead to more accurate results.
- Abstract(参考訳): 検索エンジンプロセスは文書コンテンツ検索に不可欠である。
Khmerドキュメントでは、必須のキーワードを抽出するツールが必要である。
カンボジア人は、重要なクメールコンテンツを日々生成しているにもかかわらず、効果的なセマンティック検索ツールがないため、必要な文書を見つけるのに苦労している。
Googleでさえ、Khmerコンテンツに対して高い精度を提供していない。
セマンティック検索エンジンは、様々なコンテンツタイプを理解するために高度なアルゴリズムを用いて検索結果を改善する。
レポート、記事、ソーシャルメディアフィードバックなどのクメールのデジタルコンテンツの増加は、検索機能の向上に不可欠である。
本研究は,従来のKhmer検索手法を改善するために設計された,Khmer Semantic Search Engine(KSE)を提案する。
セマンティックマッチング技術と公式な注釈付きセマンティックコンテンツを利用して,ユーザクエリから意味のあるキーワードを抽出し,正確なマッチングを行い,最適なオフライン文書とオンラインURL文書を提供する。
キーワード抽出とセマンティック検索マッチングに基づく2つのセマンティック検索フレームワークを提案する。
さらに、文書の追加や手作業によるキーワード抽出など、データ準備のためのツールも開発した。
性能を評価するため,基礎的真理データセットを作成し,検索と意味探索に関する問題について議論した。
検索項のセマンティクスの理解がより正確な結果をもたらすことを示す。
関連論文リスト
- Evaluation of Semantic Search and its Role in Retrieved-Augmented-Generation (RAG) for Arabic Language [0.0]
本稿では,アラビア語のセマンティックサーチにおいて,単純かつ強力なベンチマークの確立に尽力する。
これらの指標とデータセットの有効性を正確に評価するために、検索拡張生成(RAG)の枠組み内で意味探索の評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:42:31Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Enhancing Cloud-Based Large Language Model Processing with Elasticsearch
and Transformer Models [17.09116903102371]
LLM(Large Language Models)は、Transformerネットワークを使用して構築された生成AIモデルのクラスである。
LLMは膨大なデータセットを活用して、言語を特定し、要約し、翻訳し、予測し、生成することができる。
大規模言語モデルにおける意味ベクトル探索は,検索結果の精度と妥当性を大幅に向上させる強力な手法である。
論文 参考訳(メタデータ) (2024-02-24T12:31:22Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - BibRank: Automatic Keyphrase Extraction Platform Using~Metadata [0.0]
本稿では、キーフレーズデータセットを統合し、キーフレーズ抽出アルゴリズムの評価を容易にするプラットフォームを提案する。
このプラットフォームには、単語をBib形式で解析することで得られる豊富なデータセットを活用する自動キーフレーズ抽出アルゴリズムであるBibRankが含まれている。
論文 参考訳(メタデータ) (2023-10-13T14:44:34Z) - Effective and Efficient Query-aware Snippet Extraction for Web Search [61.60405035952961]
本稿では,DeepQSE という名前の効率的なクエリ対応 Web ページスニペット抽出手法を提案する。
DeepQSEはまず各文に対するクエリ対応の文表現を学習し、クエリと文間の微妙な関連性をキャプチャする。
本稿では,DeepQSEの効率的なバージョンであるEfficient-DeepQSEを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:46:17Z) - Khmer Word Search: Challenges, Solutions, and Semantic-Aware Search [0.0]
複数の文字の順序と異なる単語のスペル認識は、クメール語検索機能に制約を課す。
堅牢なスペルチェッカーは入力デバイスプラットフォームで一般的に利用できないため、スペルミスは一般的である。
提案手法は文字順正規化, 音素ベースのスペルチェッカー, Khmerワードセマンティックモデルなどである。
論文 参考訳(メタデータ) (2021-12-16T14:37:41Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Neural Extractive Search [53.15076679818303]
ドメインの専門家は、しばしば大きなコーパスから構造化された情報を抽出する必要がある。
我々は「抽出探索」と呼ばれる探索パラダイムを提唱し、探索クエリをキャプチャスロットで強化する。
ニューラル検索とアライメントを用いてリコールをどのように改善できるかを示す。
論文 参考訳(メタデータ) (2021-06-08T18:03:31Z) - Quotient Space-Based Keyword Retrieval in Sponsored Search [7.639289301435027]
代名詞検索は, 代名詞検索において重要な問題となっている。
本稿では,この問題に対処する新しい空間探索フレームワークを提案する。
この方法はBaiduのオンライン検索システムでうまく実装されている。
論文 参考訳(メタデータ) (2021-05-26T07:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。