論文の概要: Less is More: Adapting Text Embeddings for Low-Resource Languages with Small Scale Noisy Synthetic Data
- arxiv url: http://arxiv.org/abs/2603.22290v1
- Date: Wed, 04 Mar 2026 07:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.97517
- Title: Less is More: Adapting Text Embeddings for Low-Resource Languages with Small Scale Noisy Synthetic Data
- Title(参考訳): より少ないもの:小さなノイズの多い合成データを持つ低リソース言語にテキスト埋め込みを適用する
- Authors: Zaruhi Navasardyan, Spartak Bughdaryan, Bagrat Minasyan, Hrant Davtyan,
- Abstract要約: 低リソース言語(LRL)は、しばしば効率的なテキスト埋め込みモデルのトレーニングのための高品質で大規模なデータセットを欠いている。
Redditのタイトルとボディのペアを翻訳して生成した小型ノイズ合成データを用いた費用対効果適応手法を提案する。
実験では驚くべき「Less is More」現象が示され、1万個の雑音の合成ペアに多言語エンコーダを微調整すると平均11-12%の改善が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource languages (LRLs) often lack high-quality, large-scale datasets for training effective text embedding models, hindering their application in tasks like retrieval-augmented generation (RAG) and semantic search. In this work, we challenge the prevailing assumption that effective semantic alignment requires massive datasets or pristine, human-verified translations. Focusing on Armenian (an LRL with a unique script), we introduce a cost-effective adaptation strategy using small scale noisy synthetic data generated by translating English Reddit title-body pairs with open-weights models. We establish a comprehensive evaluation benchmark comprising existing datasets, translated data, and a manually curated dataset. Our experiments reveal a surprising "Less is More" phenomenon: fine-tuning a multilingual encoder (mE5) on just 10,000 noisy synthetic pairs yields 11-12\% average improvements across the benchmark with a 20\%+ relative improvement in retrieval performance, matching the performance of models trained on ~1 million examples. Furthermore, we demonstrate that neither increasing data scale, improving translation quality via state-of-the-art LLMs, nor diversifying data domains yields significant gains over this minimal baseline. We validate the generalizability of these findings on another LRL with a unique script. Our results suggest that semantic alignment for LRLs saturates early and is highly robust to noise, democratizing high-performance embedding creation for resource-constrained communities. We release the model, data, and the benchmark at https://metric-ai-lab.github.io/less-is-more-embeddings/ to facilitate further research.
- Abstract(参考訳): 低リソース言語(LRL)は、効率的なテキスト埋め込みモデルをトレーニングするための高品質で大規模なデータセットを欠くことが多く、検索強化生成(RAG)やセマンティックサーチといったタスクへの応用を妨げる。
本研究では,効率的なセマンティックアライメントを実現するには,大量のデータセットや人間による検証が不可欠である,という仮定に挑戦する。
我々は、アルメニア語(独特なスクリプトを持つLRL)に着目し、オープンウェイトモデルを用いて英語のRedditタイトルボディペアを翻訳することによって生成された小さなノイズの多い合成データを用いて、コスト効率の良い適応戦略を導入する。
既存のデータセット、翻訳データ、手動でキュレートされたデータセットからなる総合評価ベンチマークを構築した。
多言語エンコーダ(mE5)を1万個の雑音の合成ペアで微調整すると、ベンチマーク全体で平均11~12倍の改善が得られ、検索性能は20~12倍向上し、約100万の例でトレーニングされたモデルの性能に匹敵する。
さらに、データスケールの増大、最先端のLLMによる翻訳品質の向上、データドメインの多様化は、この最小限のベースラインに対して大きな利益をもたらすことも示している。
本研究は, 特殊なスクリプトを用いた別のLRLにおいて, これらの結果の一般化性を検証した。
その結果,LRLのセマンティックアライメントは早期に飽和し,騒音に強く,資源制約のあるコミュニティにおいて高性能な埋め込み生成を民主化することが示唆された。
我々は、さらなる研究を促進するために、https://metric-ai-lab.github.io/less-is-more-embeddings/でモデル、データ、ベンチマークをリリースする。
関連論文リスト
- Get away with less: Need of source side data curation to build parallel corpus for low resource Machine Translation [3.3393607383304253]
我々は、ソース文をスクリーニングして効率的なパラレルテキストを形成するフレームワークを開発する。
既存のデータセットと合成データセットの両方から複雑な文を学習することにより,翻訳品質を著しく向上させる。
このアプローチは、トレーニングデータ要求を減らすことでMTシステムのトレーニングコストを削減するだけでなく、データ拡張におけるLALITAの有用性を示す。
論文 参考訳(メタデータ) (2026-01-13T15:05:19Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。
LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。
我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文 参考訳(メタデータ) (2025-03-03T12:19:12Z) - Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。