Fugu-MT 論文翻訳(概要): Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval

論文の概要: Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval

arxiv url: http://arxiv.org/abs/2311.05800v1
Date: Fri, 10 Nov 2023 00:17:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 16:07:22.143984
Title: Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval
Title（参考訳）: 多言語多言語検索における学習データの合成のためのLLMの活用
Authors: Nandan Thakur, Jianmo Ni, Gustavo Hern\'andez \'Abrego, John Wieting, Jimmy Lin, Daniel Cer
Abstract要約: SWIM-IRは, 人間の監督を必要とせずに多言語密集検索モデルを訓練するための33言語を含む合成検索訓練データセットである。 XOR-Retrieve (cross-lingual)、XTREME-UP (cross-lingual)、MIRACL (monolingual)の3つの検索ベンチマークを用いて、多言語高密度検索モデルの合成微調整について検討する。
参考スコア（独自算出の注目度）: 55.926286265584565
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Dense retrieval models have predominantly been studied for English, where models have shown great success, due to the availability of human-labeled training pairs. However, there has been limited success for multilingual retrieval so far, as training data is uneven or scarcely available across multiple languages. Synthetic training data generation is promising (e.g., InPars or Promptagator), but has been investigated only for English. Therefore, to study model capabilities across both cross-lingual and monolingual retrieval tasks, we develop SWIM-IR, a synthetic retrieval training dataset containing 33 (high to very-low resource) languages for training multilingual dense retrieval models without requiring any human supervision. To construct SWIM-IR, we propose SAP (summarize-then-ask prompting), where the large language model (LLM) generates a textual summary prior to the query generation step. SAP assists the LLM in generating informative queries in the target language. Using SWIM-IR, we explore synthetic fine-tuning of multilingual dense retrieval models and evaluate them robustly on three retrieval benchmarks: XOR-Retrieve (cross-lingual), XTREME-UP (cross-lingual) and MIRACL (monolingual). Our models, called SWIM-X, are competitive with human-supervised dense retrieval models, e.g., mContriever, finding that SWIM-IR can cheaply substitute for expensive human-labeled retrieval training data.
Abstract（参考訳）: デンス検索モデルは主に英語で研究されており、人間ラベルのトレーニングペアが利用できるため、モデルは非常に成功している。しかし、複数の言語でトレーニングデータが不均一か、あるいはほとんど利用できないため、多言語検索では成功例が限られている。合成トレーニングデータ生成は将来性があり(例えば、InParsやPromptagator)、英語でのみ研究されている。そこで本研究では,言語横断検索と単言語検索の両方にまたがるモデル機能について検討するため,人的監督を必要とせず,多言語密集検索モデルを訓練するための33言語を含む合成検索訓練データセットSWIM-IRを開発した。そこで、大言語モデル(llm)がクエリ生成ステップの前にテキスト要約を生成するsap(summarize-then-ask prompting)を提案する。 SAPはLLMがターゲット言語で情報クエリを生成するのを支援する。 SWIM-IRを用いて、多言語高密度検索モデルの合成微調整を行い、XOR-Retrieve(言語横断)、XTREME-UP(言語横断)、MIRACL(言語横断)の3つの検索ベンチマークで頑健に評価する。 SWIM-Xと呼ばれる我々のモデルは、例えばmContrieverのような人間に監督された密集した検索モデルと競合する。

関連論文リスト

Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-15T06:35:27Z)
Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文参考訳（メタデータ） (2025-03-11T02:49:41Z)
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling [32.10366004426449]
本稿では,教師なしの高密度多言語レトリバーUMRについて紹介する。本稿では,多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-06T07:49:06Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages and Meaning Representations [25.50509874992198]
Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。 XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
論文参考訳（メタデータ） (2023-06-07T01:09:37Z)
Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。これは多言語コレクションの不均一性と不均衡性に起因する。 KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文参考訳（メタデータ） (2023-05-15T21:17:17Z)
Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。 MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文参考訳（メタデータ） (2023-02-03T09:54:27Z)
ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文参考訳（メタデータ） (2022-05-30T10:31:08Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。