論文の概要: Establishing a Foundation for Tetun Ad-Hoc Text Retrieval: Stemming, Indexing, Retrieval, and Ranking
- arxiv url: http://arxiv.org/abs/2412.11758v4
- Date: Fri, 18 Apr 2025 13:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 13:10:42.425458
- Title: Establishing a Foundation for Tetun Ad-Hoc Text Retrieval: Stemming, Indexing, Retrieval, and Ranking
- Title(参考訳): テトゥンアドホックテキスト検索基盤の構築:ステミング,インデックス,検索,ランキング
- Authors: Gabriel de Jesus, Sérgio Nunes,
- Abstract要約: この研究は、Tetunテキスト検索に適したソリューションの基礎となるコンポーネントとして機能する、ストップワード、ストリーマー、テストコレクションのリストを含む、不可欠な言語リソースの開発から始まった。
文書タイトルとコンテンツの両方を用いて,検索の有効性を評価する。
効率は31.37%、効率はMAP@10では+9.40%、NDCG@10では+30.35%、DFR BM25では+9.40%向上する。
- 参考スコア(独自算出の注目度): 0.03683202928838613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Searching for information on the internet and digital platforms to satisfy an information need requires effective retrieval solutions. However, such solutions are not yet available for Tetun, making it challenging to find relevant documents for text-based search queries in this language. To address these challenges, we investigate Tetun text retrieval with a focus on the ad-hoc retrieval task. The study begins by developing essential language resources -- including a list of stopwords, a stemmer, and a test collection -- which serve as foundational components for solutions tailored to Tetun text retrieval. Various strategies are investigated using both document titles and content to evaluate retrieval effectiveness. The results demonstrate that retrieving document titles, after removing hyphens and apostrophes without applying stemming, significantly improves retrieval performance compared to the baseline. Efficiency increases by 31.37%, while effectiveness achieves an average relative gain of +9.40% in MAP@10 and +30.35% in NDCG@10 with DFR BM25. Beyond the top-10 cutoff point, Hiemstra LM shows strong performance across various retrieval strategies and evaluation metrics. Contributions of this work include the development of Labadain-Stopwords (a list of 160 Tetun stopwords), Labadain-Stemmer (a Tetun stemmer with three variants), and Labadain-Avaliad\'or (a Tetun test collection containing 59 topics, 33,550 documents, and 5,900 qrels). We make all resources publicly accessible to facilitate future research in Tetun information retrieval.
- Abstract(参考訳): 情報要求を満たすためにインターネットやデジタルプラットフォーム上で情報を探すには、効果的な検索ソリューションが必要である。
しかし、これらのソリューションはTetunではまだ利用できないため、この言語でテキストベースの検索クエリの関連ドキュメントを見つけることは困難である。
これらの課題に対処するために,アドホック検索タスクに着目したテトゥーンのテキスト検索について検討する。
この研究は、Tetunテキスト検索に適したソリューションの基礎となるコンポーネントとして機能する、ストップワード、ストリーマー、テストコレクションのリストを含む、不可欠な言語リソースの開発から始まった。
文書タイトルとコンテンツの両方を用いて,検索の有効性を評価する。
その結果,ステミングを施さずにハイフンやアポストフェスを除去した文書のタイトルを検索することで,ベースラインと比較して検索性能が有意に向上した。
効率は31.37%、効率はMAP@10では+9.40%、NDCG@10では+30.35%、DFR BM25では+9.40%向上する。
トップ10のカットオフポイントを超えて、Hiemstra LMは、さまざまな検索戦略と評価指標にわたって、強力なパフォーマンスを示している。
この研究の貢献には、ラバダイン・ストップワード(160のテトゥーン停止語のリスト)、ラバダイン・ステマー(3つの変種を持つテトゥーンステマー)、ラバダイン・アヴァリアド・オオル(59のトピック、33,550の文書、5,900のクレルを含むテトゥーンテストコレクション)の開発が含まれる。
我々は,テトン情報検索の今後の研究を促進するために,すべての資源を一般公開する。
関連論文リスト
- Dense Passage Retrieval in Conversational Search [0.0]
本稿では,2つのエンコーダを用いて,リアルタイムに効率的にインデックス化およびクラスタ化が可能なコンテキスト埋め込みを生成する,高密度検索と呼ばれる新しい手法を提案する。
GPT2QR+DPRと呼ばれるエンドツーエンドの会話検索システムを提案する。
本研究は,会話検索におけるニューラルベース検索手法の研究の進展に寄与し,会話検索システムにおける検索精度向上における高密度検索の可能性を強調した。
論文 参考訳(メタデータ) (2025-03-21T19:39:31Z) - TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification [32.958143806547234]
医療、法律、ニュースなどの高度な領域では、コンテンツがどこでどのように作られるかを理解することが不可欠である。
テキストpROVEnance(テキストpROVEnance)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。
論文 参考訳(メタデータ) (2025-03-19T15:09:39Z) - ECLIPSE: Contrastive Dimension Importance Estimation with Pseudo-Irrelevance Feedback for Dense Retrieval [14.72046677914345]
近年のInformation Retrievalは、高次元埋め込み空間を活用して、関連文書の検索を改善している。
これらの高次元表現にもかかわらず、クエリに関連する文書は、低次元のクエリ依存多様体に存在する。
本稿では,関連文書と非関連文書の両方からの情報を活用することによって,これらの制約に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T15:45:06Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Improving Performance of Automatic Keyword Extraction (AKE) Methods
Using PoS-Tagging and Enhanced Semantic-Awareness [8.823779489420772]
本稿では, AKE法の性能向上のための, 単純だが効果的なポストプロセッシングに基づくユニバーサルアプローチを提案する。
本稿では,PoSタグ付けステップと2つの意味情報ソースから検索した単語の種類について考察する。
5つの最先端(SOTA)AKE法について、17個のデータセットを用いた実験結果から、提案手法は、F1スコアおよび全F1スコアで平均25.8%の10.2%と53.8%の双方で、一貫して(改善率で最大100%まで)、その性能を向上していることがわかった。
論文 参考訳(メタデータ) (2022-11-09T17:04:13Z) - Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T13:16:42Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - TREC CAsT 2019: The Conversational Assistance Track Overview [34.65827453762031]
Conversational Assistance Track (CAsT) は、CIS(Conversational Information Seeking)研究を促進するためのTREC 2019の新しいトラックである。
ドキュメントコーパスは、TREC Complex Answer Retrieval (CAR)とMicrosoft MAchine Reading COmprehension (MARCO)データセットから38,426,252パスである。
今年は、対話型クエリ理解とランキングのための様々な方法を使用して、合計65のランを提出した。
論文 参考訳(メタデータ) (2020-03-30T16:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。