論文の概要: A Comparative Study of Text Retrieval Models on DaReCzech
- arxiv url: http://arxiv.org/abs/2411.12921v1
- Date: Tue, 19 Nov 2024 23:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:46.231998
- Title: A Comparative Study of Text Retrieval Models on DaReCzech
- Title(参考訳): DaReCzechにおけるテキスト検索モデルの比較検討
- Authors: Jakub Stetina, Martin Fajcik, Michal Stefanik, Michal Hradis,
- Abstract要約: 本稿では,Splade,Plaid,Plaid-X,SimCSE,Contriever,OpenAI ADA,Gemma2の7つの市販文書検索モデルの総合評価を行う。
本実験の目的は,チェコ語における現代の検索手法の質を推定することである。
- 参考スコア(独自算出の注目度): 1.4582718436069808
- License:
- Abstract: This article presents a comprehensive evaluation of 7 off-the-shelf document retrieval models: Splade, Plaid, Plaid-X, SimCSE, Contriever, OpenAI ADA and Gemma2 chosen to determine their performance on the Czech retrieval dataset DaReCzech. The primary objective of our experiments is to estimate the quality of modern retrieval approaches in the Czech language. Our analyses include retrieval quality, speed, and memory footprint. Secondly, we analyze whether it is better to use the model directly in Czech text, or to use machine translation into English, followed by retrieval in English. Our experiments identify the most effective option for Czech information retrieval. The findings revealed notable performance differences among the models, with Gemma22 achieving the highest precision and recall, while Contriever performing poorly. Conclusively, SPLADE and PLAID models offered a balance of efficiency and performance.
- Abstract(参考訳): 本稿では,チェコの検索データセットDaReCzechを用いて,Splade,Plid,Plid-X,SimCSE,Contriever,OpenAI ADA,Gemma2の7つの市販文書検索モデルの総合評価を行う。
本実験の目的は,チェコ語における現代の検索手法の質を推定することである。
我々の分析には、検索品質、速度、メモリフットプリントが含まれる。
第二に、チェコ語のテキストでモデルを直接使うのが良いのか、それとも機械翻訳を英語で使い、次に英語で検索するのがよいのかを分析する。
本実験では,チェコ語情報検索において最も有効な選択肢を同定した。
その結果、Gemma22は最高精度とリコールを達成し、Contrieverは性能が低かった。
最終的に、SPLADEとPLAIDモデルは効率と性能のバランスを提供した。
関連論文リスト
- AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Some Like It Small: Czech Semantic Embedding Models for Industry
Applications [0.0]
本稿では,小型チェコ語文埋め込みモデルの開発と評価に焦点をあてる。
小型モデルは資源制約のある環境でのリアルタイム産業アプリケーションにとって重要なコンポーネントである。
最終的に、チェコの検索エンジンであるSeznam.czで開発された文埋め込みモデルの実用的応用について述べる。
論文 参考訳(メタデータ) (2023-11-23T11:14:13Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Siamese BERT-based Model for Web Search Relevance Ranking Evaluated on a
New Czech Dataset [0.0]
本稿では,BERTに基づくシアムアーキテクチャを利用した文書ランキング問題に対するリアルタイムアプローチを提案する。
DaReCzechは、チェコのユーザクエリ-ドキュメントペア1.6万のユニークなデータセットで、手動で関連するレベルを指定しています。
また、チェコの大規模なコーパスで事前訓練されたElectra小言語モデルであるSmall-E-Czechをリリースしました。
論文 参考訳(メタデータ) (2021-12-03T09:45:18Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Reading Comprehension in Czech via Machine Translation and Cross-lingual
Transfer [2.8273701718153563]
この研究は、手動で注釈付けされたチェコのトレーニングデータを必要とせずに、チェコ語で読みやすいシステムを構築することに焦点を当てている。
我々はSQuAD 1.1とSQuAD 2.0データセットをチェコ語に自動翻訳し、トレーニングと開発データを作成しました。
その後,複数のBERTおよびXLM-RoBERTaベースラインモデルの訓練と評価を行った。
論文 参考訳(メタデータ) (2020-07-03T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。