論文の概要: Back-of-the-Book Index Automation for Arabic Documents
- arxiv url: http://arxiv.org/abs/2410.10286v1
- Date: Mon, 14 Oct 2024 08:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:34:36.412421
- Title: Back-of-the-Book Index Automation for Arabic Documents
- Title(参考訳): アラビア文書のバック・オブ・ザ・ブックインデックス自動化
- Authors: Nawal Haidar, Fadi A. Zaraket,
- Abstract要約: 書籍のバック・オブ・ザ・ブックのインデックスが与えられた場合、関連するページに対するインデックス項の正確な発生を確認し、識別することを目的としている。
正確な一致、語彙的類似性、意味的類似性など、いくつかの指標を使用して、最も適切な事象を決定する。
我々の手法はF1スコア.966(精度=.966,リコール=.966)を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Back-of-the-book indexes are crucial for book readability. Their manual creation is laborious and error prone. In this paper, we consider automating back-of-the-book index extraction for Arabic books to help simplify both the creation and review tasks. Given a back-of-the-book index, we aim to check and identify the accurate occurrences of index terms relative to the associated pages. To achieve this, we first define a pool of candidates for each term by extracting all possible noun phrases from paragraphs appearing on the relevant index pages. These noun phrases, identified through part-of-speech analysis, are stored in a vector database for efficient retrieval. We use several metrics, including exact matches, lexical similarity, and semantic similarity, to determine the most appropriate occurrence. The candidate with the highest score based on these metrics is chosen as the occurrence of the term. We fine-tuned a heuristic method, that considers the above metrics and that achieves an F1-score of .966 (precision=.966, recall=.966). These excellent results open the door for future work related to automation of back-of-the-book index generation and checking.
- Abstract(参考訳): 書籍の読みやすさにはバック・オブ・ザ・ブックのインデックスが不可欠だ。
彼らの手作業による創造は退屈で、エラーを起こしやすい。
本稿では,アラビア書のバック・オブ・ザ・ブックの索引抽出を自動化し,作成・レビュー作業の簡略化を図る。
書籍のバック・オブ・ザ・ブックのインデックスが与えられた場合、関連するページに対するインデックス項の正確な発生を確認し、識別することを目的としている。
そこで我々はまず,関連するインデックスページに現れる段落から可能なすべての名詞句を抽出し,各項の候補のプールを定義する。
これらの名詞句は、音声分析によって識別され、ベクトルデータベースに格納され、効率的に検索される。
正確な一致、語彙的類似性、意味的類似性など、いくつかの指標を使用して、最も適切な事象を決定する。
これらの指標に基づいて最も高いスコアを持つ候補が、この用語の発生として選択される。
我々は、上記の指標を考慮し、F1スコアの.966(精度=.966、リコール=.966)を達成するヒューリスティックな手法を微調整した。
これらの優れた成果は、バック・オブ・ザ・ブックのインデックス生成とチェックの自動化に関連する将来の作業の扉を開く。
関連論文リスト
- Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - CoLe and LYS at BioASQ MESINESP8 Task: similarity based descriptor
assignment in Spanish [0.0]
本稿では,MESINESP Task of the BioASQ Biomedical semantic indexing Challengeについて述べる。
我々は,IBECS/LILACS文書からインデックス項を抽出し,Apache Luceneインデックスに格納する手法について検討した。
公式な実行で得られた結果は、このアプローチがスペイン語のような言語に適合していることを確認しているようだ。
論文 参考訳(メタデータ) (2024-02-02T21:36:03Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T13:16:42Z) - Few-shot Intent Classification and Slot Filling with Retrieved Examples [30.45269507626138]
そこで我々は,新しいバッチソフトマックスの手法を用いて,同じラベルを持つスパンの類似した文脈表現を学習するスパンレベル検索手法を提案する。
提案手法は,CLINCおよびSNIPSベンチマークにおいて,様々な数ショット設定で過去のシステムより優れていた。
論文 参考訳(メタデータ) (2021-04-12T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。