論文の概要: Passage Retrieval of Polish Texts Using OKAPI BM25 and an Ensemble of Cross Encoders
- arxiv url: http://arxiv.org/abs/2410.04620v1
- Date: Sun, 6 Oct 2024 20:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:26:32.356973
- Title: Passage Retrieval of Polish Texts Using OKAPI BM25 and an Ensemble of Cross Encoders
- Title(参考訳): OKAPI BM25とクロスエンコーダのアンサンブルを用いたポーランド語テキストのパス検索
- Authors: Jakub Pokrywka,
- Abstract要約: 本稿では,Poleval 2023 Task 3: Passage Retrieval Challengeに対する勝利のソリューションを提案する。
ポーランドのテキストを3つの領域(トリビア、合法、カスタマーサポート)で検索する。
この手法はOKAPI BM25アルゴリズムを用いて文書を検索し、公開の多言語クロスランクのアンサンブルを再構成した。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Passage Retrieval has traditionally relied on lexical methods like TF-IDF and BM25. Recently, some neural network models have surpassed these methods in performance. However, these models face challenges, such as the need for large annotated datasets and adapting to new domains. This paper presents a winning solution to the Poleval 2023 Task 3: Passage Retrieval challenge, which involves retrieving passages of Polish texts in three domains: trivia, legal, and customer support. However, only the trivia domain was used for training and development data. The method used the OKAPI BM25 algorithm to retrieve documents and an ensemble of publicly available multilingual Cross Encoders for Reranking. Fine-tuning the reranker models slightly improved performance but only in the training domain, while it worsened in other domains.
- Abstract(参考訳): Passage Retrievalは伝統的にTF-IDFやBM25のような語彙的手法に依存してきた。
最近、一部のニューラルネットワークモデルはこれらの手法を性能で上回っている。
しかし、これらのモデルは、大きな注釈付きデータセットの必要性や新しいドメインへの適応といった課題に直面している。
本稿では,ポーランド語テキストを3つの領域(トリビア,合法,顧客支援)で検索することを含む,Poleval 2023 Task 3: Passage Retrieval Challengeに勝利したソリューションを提案する。
しかし、トリビアドメインのみがトレーニングや開発データに使用された。
この手法はOKAPI BM25アルゴリズムを用いて文書を検索し、公開の多言語Cross Encoders for Re rankをアンサンブルした。
リランカモデルの微調整はパフォーマンスをわずかに向上させたが、トレーニングドメインのみに留まり、他のドメインでは悪化した。
関連論文リスト
- Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文 参考訳(メタデータ) (2024-06-03T07:48:18Z) - Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting [0.0]
本稿では,大規模な言語モデル(LLM)を活用して埋め込み処理前に入力テキストを豊かに書き直しすることで,埋め込み性能を向上させる新しい手法を提案する。
このアプローチの有効性は、Banking77 Classification、TwitterSemEval 2015、Amazon Counter-factual Classificationの3つのデータセットで評価されている。
論文 参考訳(メタデータ) (2024-04-18T15:58:56Z) - Efficient Machine Translation Domain Adaptation [7.747003493657217]
機械翻訳モデルは、ドメイン外のテキストを翻訳する際に苦労する。
ドメイン適応メソッドは、すべての新しいドメインでモデル全体または一部を微調整またはトレーニングすることに焦点を当てます。
我々は、類似したコンテキストがこれまで見られていた場合に、検索を行うのを避ける、単純だが効果的なキャッシュ戦略を導入する。
論文 参考訳(メタデータ) (2022-04-26T21:47:54Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Unsupervised Neural Domain Adaptation for Document Image Binarization [13.848843012433187]
本稿では,ニューラルネットワークとドメイン適応(DA)を組み合わせて,教師なし文書のバイナライゼーションを行う手法を提案する。
その結果,ラベル付きデータを必要とせず,新たな文書領域の双対化をうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2020-12-02T13:42:38Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。