論文の概要: Establishing a Foundation for Tetun Text Ad-Hoc Retrieval: Indexing, Stemming, Retrieval, and Ranking
- arxiv url: http://arxiv.org/abs/2412.11758v1
- Date: Mon, 16 Dec 2024 13:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:47.917126
- Title: Establishing a Foundation for Tetun Text Ad-Hoc Retrieval: Indexing, Stemming, Retrieval, and Ranking
- Title(参考訳): Tetun Text Ad-Hoc Retrievalの基礎を確立する:Indexing, Stemming, Retrieval, Ranking
- Authors: Gabriel de Jesus, Sérgio Nunes,
- Abstract要約: 本研究では,アドホック検索タスクに着目したテトゥーンのテキスト検索について検討する。
最初は、ストップワードのリスト、ストローマー、テストコレクションなど、重要な言語リソースの開発から始まります。
次に、文書タイトルとコンテンツの両方を用いて、検索の有効性を評価する。
- 参考スコア(独自算出の注目度): 0.03683202928838613
- License:
- Abstract: Searching for information on the internet and digital platforms to satisfy an information need requires effective retrieval solutions. However, such solutions are not yet available for Tetun, making it challenging to find relevant documents for text-based search queries in this language. To address these challenges, this study investigates Tetun text retrieval with a focus on the ad-hoc retrieval task. It begins by developing essential language resources -- including a list of stopwords, a stemmer, and a test collection -- which serve as foundational components for solutions tailored to Tetun text retrieval. Various strategies are then explored using both document titles and content to evaluate retrieval effectiveness. The results show that retrieving document titles, after removing hyphens and apostrophes without applying stemming, significantly improves retrieval performance compared to the baseline. Efficiency increases by 31.37%, while effectiveness achieves an average gain of 9.40% in MAP@10 and 30.35% in nDCG@10 with DFR BM25. Beyond the top-10 cutoff point, Hiemstra LM demonstrates strong performance across various retrieval strategies and evaluation metrics. Contributions of this work include the development of Labadain-Stopwords (a list of 160 Tetun stopwords), Labadain-Stemmer (a Tetun stemmer with three variants), and Labadain-Avaliad\'or (a Tetun test collection containing 59 topics, 33,550 documents, and 5,900 qrels).
- Abstract(参考訳): 情報要求を満たすためにインターネットやデジタルプラットフォーム上で情報を探すには、効果的な検索ソリューションが必要である。
しかし、これらのソリューションはTetunではまだ利用できないため、この言語でテキストベースの検索クエリの関連ドキュメントを見つけることは困難である。
これらの課題に対処するために,アドホック検索タスクに着目したテトゥーンのテキスト検索について検討した。
最初は,Tetunテキスト検索に適したソリューションの基本コンポーネントとして機能する,重要な言語リソース – ストップワードのリスト,ステマー,テストコレクションなど – の開発から始まります。
次に、文書タイトルとコンテンツの両方を用いて、検索の有効性を評価する。
その結果,ステミングを施さずにハイフンやアポストフェスを除去した文書のタイトルを検索することで,ベースラインと比較して検索性能が有意に向上した。
効率は31.37%向上し、効果はMAP@10で9.40%、DFRBM25でnDCG@10で30.35%向上した。
トップ10のカットオフポイントを超えて、Hiemstra LMは、さまざまな検索戦略と評価指標にわたって、強力なパフォーマンスを示している。
この研究の貢献には、ラバダイン・ストップワード(160のテトゥーン停止語のリスト)、ラバダイン・ステマー(3つの変種を持つテトゥーンステマー)、ラバダイン・アヴァリアド・オオル(59のトピック、33,550の文書、5,900のクレルを含むテトゥーンテストコレクション)の開発が含まれる。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Text Categorization Can Enhance Domain-Agnostic Stopword Extraction [3.6048839315645442]
本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
MasakhaNEWS, African Stopwords Project, MasakhaPOS のデータセットを利用することで, テキスト分類がドメインに依存しない停止語を, 80%以上の検出成功率で効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-24T11:52:05Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Improving Performance of Automatic Keyword Extraction (AKE) Methods
Using PoS-Tagging and Enhanced Semantic-Awareness [8.823779489420772]
本稿では, AKE法の性能向上のための, 単純だが効果的なポストプロセッシングに基づくユニバーサルアプローチを提案する。
本稿では,PoSタグ付けステップと2つの意味情報ソースから検索した単語の種類について考察する。
5つの最先端(SOTA)AKE法について、17個のデータセットを用いた実験結果から、提案手法は、F1スコアおよび全F1スコアで平均25.8%の10.2%と53.8%の双方で、一貫して(改善率で最大100%まで)、その性能を向上していることがわかった。
論文 参考訳(メタデータ) (2022-11-09T17:04:13Z) - Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T13:16:42Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - TREC CAsT 2019: The Conversational Assistance Track Overview [34.65827453762031]
Conversational Assistance Track (CAsT) は、CIS(Conversational Information Seeking)研究を促進するためのTREC 2019の新しいトラックである。
ドキュメントコーパスは、TREC Complex Answer Retrieval (CAR)とMicrosoft MAchine Reading COmprehension (MARCO)データセットから38,426,252パスである。
今年は、対話型クエリ理解とランキングのための様々な方法を使用して、合計65のランを提出した。
論文 参考訳(メタデータ) (2020-03-30T16:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。