Fugu-MT 論文翻訳(概要): Establishing a Foundation for Tetun Text Ad-Hoc Retrieval: Indexing, Stemming, Retrieval, and Ranking

論文の概要: Establishing a Foundation for Tetun Text Ad-Hoc Retrieval: Indexing, Stemming, Retrieval, and Ranking

arxiv url: http://arxiv.org/abs/2412.11758v1
Date: Mon, 16 Dec 2024 13:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.394176
Title: Establishing a Foundation for Tetun Text Ad-Hoc Retrieval: Indexing, Stemming, Retrieval, and Ranking
Title（参考訳）: Tetun Text Ad-Hoc Retrievalの基礎を確立する:Indexing, Stemming, Retrieval, Ranking
Authors: Gabriel de Jesus, Sérgio Nunes,
Abstract要約: 本研究では,アドホック検索タスクに着目したテトゥーンのテキスト検索について検討する。最初は、ストップワードのリスト、ストローマー、テストコレクションなど、重要な言語リソースの開発から始まります。次に、文書タイトルとコンテンツの両方を用いて、検索の有効性を評価する。
参考スコア（独自算出の注目度）: 0.03683202928838613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Searching for information on the internet and digital platforms to satisfy an information need requires effective retrieval solutions. However, such solutions are not yet available for Tetun, making it challenging to find relevant documents for text-based search queries in this language. To address these challenges, this study investigates Tetun text retrieval with a focus on the ad-hoc retrieval task. It begins by developing essential language resources -- including a list of stopwords, a stemmer, and a test collection -- which serve as foundational components for solutions tailored to Tetun text retrieval. Various strategies are then explored using both document titles and content to evaluate retrieval effectiveness. The results show that retrieving document titles, after removing hyphens and apostrophes without applying stemming, significantly improves retrieval performance compared to the baseline. Efficiency increases by 31.37%, while effectiveness achieves an average gain of 9.40% in MAP@10 and 30.35% in nDCG@10 with DFR BM25. Beyond the top-10 cutoff point, Hiemstra LM demonstrates strong performance across various retrieval strategies and evaluation metrics. Contributions of this work include the development of Labadain-Stopwords (a list of 160 Tetun stopwords), Labadain-Stemmer (a Tetun stemmer with three variants), and Labadain-Avaliad\'or (a Tetun test collection containing 59 topics, 33,550 documents, and 5,900 qrels).
Abstract（参考訳）: 情報要求を満たすためにインターネットやデジタルプラットフォーム上で情報を探すには、効果的な検索ソリューションが必要である。しかし、これらのソリューションはTetunではまだ利用できないため、この言語でテキストベースの検索クエリの関連ドキュメントを見つけることは困難である。これらの課題に対処するために,アドホック検索タスクに着目したテトゥーンのテキスト検索について検討した。最初は,Tetunテキスト検索に適したソリューションの基本コンポーネントとして機能する,重要な言語リソース – ストップワードのリスト,ステマー,テストコレクションなど – の開発から始まります。次に、文書タイトルとコンテンツの両方を用いて、検索の有効性を評価する。その結果,ステミングを施さずにハイフンやアポストフェスを除去した文書のタイトルを検索することで,ベースラインと比較して検索性能が有意に向上した。効率は31.37%向上し、効果はMAP@10で9.40%、DFRBM25でnDCG@10で30.35%向上した。トップ10のカットオフポイントを超えて、Hiemstra LMは、さまざまな検索戦略と評価指標にわたって、強力なパフォーマンスを示している。この研究の貢献には、ラバダイン・ストップワード(160のテトゥーン停止語のリスト)、ラバダイン・ステマー(3つの変種を持つテトゥーンステマー)、ラバダイン・アヴァリアド・オオル(59のトピック、33,550の文書、5,900のクレルを含むテトゥーンテストコレクション)の開発が含まれる。

関連論文リスト

Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
Towards the Influence of Text Quantity on Writer Retrieval [1.024113475677323]
著者検索は、手書きの類似性に基づいて、データセット内で同じ個人によって作成された文書を識別する。本稿では,手工芸と深層学習の両方のアプローチを含む,最先端のライター検索システムについて検討する。
論文参考訳（メタデータ） (2025-06-09T09:05:15Z)
Deep Retrieval at CheckThat! 2025: Identifying Scientific Papers from Implicit Social Media Mentions via Hybrid Retrieval and Re-Ranking [4.275139302875217]
CLEF CheckThat! 2025コンペティションのサブタスク4bに対するDeep Retrievalチームの方法論と結果を示す。本稿では,語彙的精度,意味的一般化,文脈的再ランク付けを併用したハイブリッド検索パイプラインを提案する。提案手法は, 開発セットで76.46%, 隠されたテストセットで66.43%の平均相反ランクを5 (MRR@5) 達成する。
論文参考訳（メタデータ） (2025-05-29T08:55:39Z)
Dense Passage Retrieval in Conversational Search [0.0]
本稿では,2つのエンコーダを用いて,リアルタイムに効率的にインデックス化およびクラスタ化が可能なコンテキスト埋め込みを生成する,高密度検索と呼ばれる新しい手法を提案する。 GPT2QR+DPRと呼ばれるエンドツーエンドの会話検索システムを提案する。本研究は,会話検索におけるニューラルベース検索手法の研究の進展に寄与し,会話検索システムにおける検索精度向上における高密度検索の可能性を強調した。
論文参考訳（メタデータ） (2025-03-21T19:39:31Z)
TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification [32.958143806547234]
医療、法律、ニュースなどの高度な領域では、コンテンツがどこでどのように作られるかを理解することが不可欠である。テキストpROVEnance(テキストpROVEnance)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。
論文参考訳（メタデータ） (2025-03-19T15:09:39Z)
ECLIPSE: Contrastive Dimension Importance Estimation with Pseudo-Irrelevance Feedback for Dense Retrieval [14.72046677914345]
近年のInformation Retrievalは、高次元埋め込み空間を活用して、関連文書の検索を改善している。これらの高次元表現にもかかわらず、クエリに関連する文書は、低次元のクエリ依存多様体に存在する。本稿では,関連文書と非関連文書の両方からの情報を活用することによって,これらの制約に対処する手法を提案する。
論文参考訳（メタデータ） (2024-12-19T15:45:06Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。 BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文参考訳（メタデータ） (2024-06-23T08:24:08Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。本稿では,高密度検索のための新しい検索ユニット,命題を提案する。実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2023-12-11T18:57:35Z)
Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文参考訳（メタデータ） (2023-11-14T23:28:36Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Improving Performance of Automatic Keyword Extraction (AKE) Methods Using PoS-Tagging and Enhanced Semantic-Awareness [8.823779489420772]
本稿では, AKE法の性能向上のための, 単純だが効果的なポストプロセッシングに基づくユニバーサルアプローチを提案する。本稿では,PoSタグ付けステップと2つの意味情報ソースから検索した単語の種類について考察する。 5つの最先端(SOTA)AKE法について、17個のデータセットを用いた実験結果から、提案手法は、F1スコアおよび全F1スコアで平均25.8%の10.2%と53.8%の双方で、一貫して(改善率で最大100%まで)、その性能を向上していることがわかった。
論文参考訳（メタデータ） (2022-11-09T17:04:13Z)
Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文参考訳（メタデータ） (2021-12-09T13:16:42Z)
Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4～10倍に削減できることを示す。
論文参考訳（メタデータ） (2021-09-16T17:42:45Z)
TREC CAsT 2019: The Conversational Assistance Track Overview [34.65827453762031]
Conversational Assistance Track (CAsT) は、CIS(Conversational Information Seeking)研究を促進するためのTREC 2019の新しいトラックである。ドキュメントコーパスは、TREC Complex Answer Retrieval (CAR)とMicrosoft MAchine Reading COmprehension (MARCO)データセットから38,426,252パスである。今年は、対話型クエリ理解とランキングのための様々な方法を使用して、合計65のランを提出した。
論文参考訳（メタデータ） (2020-03-30T16:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。