論文の概要: Siamese BERT-based Model for Web Search Relevance Ranking Evaluated on a
New Czech Dataset
- arxiv url: http://arxiv.org/abs/2112.01810v1
- Date: Fri, 3 Dec 2021 09:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:48:10.405465
- Title: Siamese BERT-based Model for Web Search Relevance Ranking Evaluated on a
New Czech Dataset
- Title(参考訳): Siamese BERT を用いた新しいチェコのデータセットに基づく Web Search Relevance Ranking の評価
- Authors: Mat\v{e}j Koci\'an, Jakub N\'aplava, Daniel \v{S}tancl, Vladim\'ir
Kadlec
- Abstract要約: 本稿では,BERTに基づくシアムアーキテクチャを利用した文書ランキング問題に対するリアルタイムアプローチを提案する。
DaReCzechは、チェコのユーザクエリ-ドキュメントペア1.6万のユニークなデータセットで、手動で関連するレベルを指定しています。
また、チェコの大規模なコーパスで事前訓練されたElectra小言語モデルであるSmall-E-Czechをリリースしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web search engines focus on serving highly relevant results within hundreds
of milliseconds. Pre-trained language transformer models such as BERT are
therefore hard to use in this scenario due to their high computational demands.
We present our real-time approach to the document ranking problem leveraging a
BERT-based siamese architecture. The model is already deployed in a commercial
search engine and it improves production performance by more than 3%. For
further research and evaluation, we release DaReCzech, a unique data set of 1.6
million Czech user query-document pairs with manually assigned relevance
levels. We also release Small-E-Czech, an Electra-small language model
pre-trained on a large Czech corpus. We believe this data will support
endeavours both of search relevance and multilingual-focused research
communities.
- Abstract(参考訳): web 検索エンジンは数百ミリ秒以内の非常に関連性の高い結果の提供に重点を置いている。
したがって、BERTのような事前訓練された言語トランスフォーマーモデルは、高い計算要求のためにこのシナリオでの使用が困難である。
本稿では,BERTに基づくシアムアーキテクチャを利用した文書ランキング問題に対するリアルタイムアプローチを提案する。
このモデルは、すでに商用検索エンジンにデプロイされており、生産性能を3%以上改善している。
DaReCzechは、チェコのユーザクエリ-ドキュメントペア1.6万のユニークなデータセットで、手動で関連レベルを割り振る。
また、チェコの大規模なコーパスで事前訓練されたElectra小言語モデルであるSmall-E-Czechをリリースしました。
このデータは、検索関連性と多言語研究コミュニティの両方に役立つと考えています。
関連論文リスト
- A Comparative Study of Text Retrieval Models on DaReCzech [1.4582718436069808]
本稿では,Splade,Plaid,Plaid-X,SimCSE,Contriever,OpenAI ADA,Gemma2の7つの市販文書検索モデルの総合評価を行う。
本実験の目的は,チェコ語における現代の検索手法の質を推定することである。
論文 参考訳(メタデータ) (2024-11-19T23:19:46Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - BERTa\'u: Ita\'u BERT for digital customer service [0.0]
我々はBERTa'uと呼ばれるポルトガルの金融ドメイン言語表現モデルを導入する。
我々の新しい貢献は、BERTa'u事前訓練された言語モデルでは、より少ないデータが必要であり、3つのNLPタスクで最先端のパフォーマンスに達し、より小さく、より軽量なモデルが実現可能であることである。
論文 参考訳(メタデータ) (2021-01-28T14:29:03Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。