論文の概要: JaColBERT and Hard Negatives, Towards Better Japanese-First Embeddings
for Retrieval: Early Technical Report
- arxiv url: http://arxiv.org/abs/2312.16144v1
- Date: Tue, 26 Dec 2023 18:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:49:36.688628
- Title: JaColBERT and Hard Negatives, Towards Better Japanese-First Embeddings
for Retrieval: Early Technical Report
- Title(参考訳): jacolbert と hard negatives: 検索のための日本語ファースト組込みの改善に向けて--初期技術報告
- Authors: Benjamin Clavi\'e
- Abstract要約: 日本語では、最も優れたディープラーニングに基づく検索手法は多言語密着型埋め込みに依存している。
そこで本研究では,(1)日本語MMARCOデータセットの高負拡張版と(2)日本語向けColBERTモデルに基づく文書検索モデルJaColBERTを紹介する。
- 参考スコア(独自算出の注目度): 3.185711963693986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document retrieval in many languages has been largely relying on
multi-lingual models, and leveraging the vast wealth of English training data.
In Japanese, the best performing deep-learning based retrieval approaches rely
on multilingual dense embeddings. In this work, we introduce (1) a
hard-negative augmented version of the Japanese MMARCO dataset and (2)
JaColBERT, a document retrieval model built on the ColBERT model architecture,
specifically for Japanese. JaColBERT vastly outperform all previous monolingual
retrieval approaches and competes with the best multilingual methods, despite
unfavourable evaluation settings (out-of-domain vs. in-domain for the
multilingual models). JaColBERT reaches an average Recall@10 of 0.813,
noticeably ahead of the previous monolingual best-performing model (0.716) and
only slightly behind multilingual-e5-base (0.820), though more noticeably
behind multilingual-e5-large (0.856). These results are achieved using only a
limited, entirely Japanese, training set, more than two orders of magnitudes
smaller than multilingual embedding models. We believe these results show great
promise to support retrieval-enhanced application pipelines in a wide variety
of domains.
- Abstract(参考訳): 多くの言語における文書検索は多言語モデルに大きく依存しており、豊富な英語学習データを活用している。
日本語では、ディープラーニングに基づく検索は多言語密接な埋め込みに依存する。
本研究では,(1)日本語MMARCOデータセットの高負拡張版,(2)コルバートモデルに基づく文書検索モデルであるJaColBERTを紹介する。
jacolbertは以前のモノリンガル検索のアプローチを大きく上回っており、好ましくない評価設定(多言語モデルのドメイン外対ドメイン内)にもかかわらず、最高のマルチリンガルメソッドと競合する。
JaColBERT は 0.813 の平均 Recall@10 に達し、以前のモノリンガルの最高性能モデル (0.716) よりわずかに先行し、マルチリンガルの e5 ベース (0.820) よりわずかに遅れている。
これらの結果は,多言語埋め込みモデルよりも2桁以上小さい,限定的かつ完全に日本語の訓練セットのみを用いて達成される。
これらの結果は、広範囲のドメインで検索強化アプリケーションパイプラインをサポートすることを非常に約束していると考えています。
関連論文リスト
- mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual
Conversational Agent Models [1.52292571922932]
自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。
これらの多言語モデルが,言語固有のテストデータにまたがる単言語モデルと比較して,同等あるいは優れた性能に到達できることを示す。
論文 参考訳(メタデータ) (2020-12-07T17:14:52Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。