Fugu-MT 論文翻訳(概要): Multilingual Transformers for Product Matching -- Experiments and a New Benchmark in Polish

論文の概要: Multilingual Transformers for Product Matching -- Experiments and a New Benchmark in Polish

arxiv url: http://arxiv.org/abs/2205.15712v2
Date: Wed, 1 Jun 2022 07:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 11:58:57.268282
Title: Multilingual Transformers for Product Matching -- Experiments and a New Benchmark in Polish
Title（参考訳）: 製品マッチングのための多言語トランスフォーマー -- ポーランドにおける実験と新しいベンチマーク
Authors: Micha{\l} Mo\.zd\.zonek, Anna Wr\'oblewska, Sergiy Tkachuk, Szymon {\L}ukasik
Abstract要約: 本論文は, 事前学習された多言語トランスフォーマーモデルが, 微調整後の製品マッチング問題の解決に適していることを示す。 Web Data Commons を用いた多言語 mBERT と XLM-RoBERTa モデルを英語で検証した。事前学習したモデルの有効性を比較できる新しいデータセットをポーランド語で作成しました。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Product matching corresponds to the task of matching identical products across different data sources. It typically employs available product features which, apart from being multimodal, i.e., comprised of various data types, might be non-homogeneous and incomplete. The paper shows that pre-trained, multilingual Transformer models, after fine-tuning, are suitable for solving the product matching problem using textual features both in English and Polish languages. We tested multilingual mBERT and XLM-RoBERTa models in English on Web Data Commons - training dataset and gold standard for large-scale product matching. The obtained results show that these models perform similarly to the latest solutions tested on this set, and in some cases, the results were even better. Additionally, we prepared a new dataset entirely in Polish and based on offers in selected categories obtained from several online stores for the research purpose. It is the first open dataset for product matching tasks in Polish, which allows comparing the effectiveness of the pre-trained models. Thus, we also showed the baseline results obtained by the fine-tuned mBERT and XLM-RoBERTa models on the Polish datasets.
Abstract（参考訳）: 製品マッチングは、異なるデータソース間で同じ製品をマッチングするタスクに対応します。一般的には、マルチモーダルである以外、さまざまなデータ型で構成され、非均質で不完全である利用可能な製品機能を採用している。本論文は,英語とポーランド語の両方でテキスト特徴を用いた製品マッチング問題の解決に適した,事前学習された多言語トランスフォーマーモデルを示す。 Web Data CommonsでマルチリンガルmBERTとXLM-RoBERTaモデル(大規模製品マッチングのためのトレーニングデータセットとゴールド標準)を英語でテストした。得られた結果から,これらのモデルは,このセットでテストした最新のソリューションと同等に動作し,場合によってはさらに優れた結果が得られた。さらに,研究目的として,複数のオンラインストアから選択したカテゴリのオファーに基づいて,新たなデータセットをポーランド語で用意した。これはポーランドで製品マッチングタスクのための最初のオープンデータセットであり、事前訓練されたモデルの有効性を比較することができる。そこで,ポーランドのデータセット上でmBERTモデルとXLM-RoBERTaモデルにより得られたベースライン結果を示した。

関連論文リスト

P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文参考訳（メタデータ） (2024-10-28T07:30:05Z)
MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。 51個の埋め込みモデルを大規模に比較した。すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文参考訳（メタデータ） (2024-05-30T20:34:37Z)
Constructing Multilingual Code Search Dataset Using Neural Machine Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文参考訳（メタデータ） (2023-06-27T16:42:36Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文参考訳（メタデータ） (2021-06-17T05:09:54Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Cross-Lingual Low-Resource Set-to-Description Retrieval for Global E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文参考訳（メタデータ） (2020-05-17T08:10:51Z)
KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文参考訳（メタデータ） (2020-05-01T21:55:40Z)
Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。 BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2020-04-24T23:32:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。