論文の概要: Enhancing Model Performance in Multilingual Information Retrieval with
Comprehensive Data Engineering Techniques
- arxiv url: http://arxiv.org/abs/2302.07010v1
- Date: Tue, 14 Feb 2023 12:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:36:29.559384
- Title: Enhancing Model Performance in Multilingual Information Retrieval with
Comprehensive Data Engineering Techniques
- Title(参考訳): 包括的データ工学手法による多言語情報検索におけるモデル性能の向上
- Authors: Qi Zhang, Zijian Yang, Yilun Huang, Ze Chen, Zijian Cai, Kangxu Wang,
Jiewen Zheng, Jiarong He, Jin Gao
- Abstract要約: 我々は、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整する。
モデルの改善は主に、多様なデータエンジニアリング技術によって達成されます。
我々はSurprise-Languagesトラックで2位、Known-Languagesトラックで0.835位、3位、NDCG@10スコアで16の既知の言語で平均0.716位を確保した。
- 参考スコア(独自算出の注目度): 10.57012904999091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our solution to the Multilingual Information
Retrieval Across a Continuum of Languages (MIRACL) challenge of WSDM CUP
2023\footnote{https://project-miracl.github.io/}. Our solution focuses on
enhancing the ranking stage, where we fine-tune pre-trained multilingual
transformer-based models with MIRACL dataset. Our model improvement is mainly
achieved through diverse data engineering techniques, including the collection
of additional relevant training data, data augmentation, and negative sampling.
Our fine-tuned model effectively determines the semantic relevance between
queries and documents, resulting in a significant improvement in the efficiency
of the multilingual information retrieval process. Finally, Our team is pleased
to achieve remarkable results in this challenging competition, securing 2nd
place in the Surprise-Languages track with a score of 0.835 and 3rd place in
the Known-Languages track with an average nDCG@10 score of 0.716 across the 16
known languages on the final leaderboard.
- Abstract(参考訳): 本稿では,WSDM CUP 2023\footnote{https://project-miracl.github.io/}におけるMIRACL(Multilingual Information Retrieval Across a Continuum of Languages)問題に対する解決策を提案する。
我々のソリューションは、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整するランキングステージの向上に焦点を当てている。
我々のモデル改善は主に、関連するトレーニングデータの収集、データ拡張、ネガティブサンプリングなど、多様なデータエンジニアリング技術によって達成されている。
本モデルは,クエリと文書間の意味的関連性を効果的に決定し,多言語情報検索プロセスの効率を大幅に向上させる。
最後に、私たちのチームは、この挑戦的なコンペティションで素晴らしい結果を得たことを喜んでいます。サプライズ言語トラックで2位、既知の言語トラックでは0.835位と3位、最終リーダーボードでは16の既知の言語で平均 ndcg@10 スコア 0.716 のスコアで、サプライズ言語トラックで2位を確保しています。
関連論文リスト
- HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - KInITVeraAI at SemEval-2023 Task 3: Simple yet Powerful Multilingual
Fine-Tuning for Persuasion Techniques Detection [0.0]
本稿では,サブタスク3のSemEval 2023タスク3に対して,説得技術検出専用の最高のパフォーマンスソリューションを提案する。
入力データの多言語的特性が高く,23の予測ラベルが多数存在するため,学習前のトランスフォーマベース言語モデルに微調整を施した。
論文 参考訳(メタデータ) (2023-04-24T09:06:43Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。