論文の概要: Boosting Data Utilization for Multilingual Dense Retrieval
- arxiv url: http://arxiv.org/abs/2509.09459v1
- Date: Thu, 11 Sep 2025 13:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.403539
- Title: Boosting Data Utilization for Multilingual Dense Retrieval
- Title(参考訳): マルチリンガルディエンス検索のためのデータ活用の促進
- Authors: Chao Huang, Fengran Mo, Yufeng Chen, Changhao Guan, Zhenrui Yue, Xinyu Wang, Jinan Xu, Kaiyu Huang,
- Abstract要約: 高品質な高負のサンプルと効果的なミニバッチデータを得ることにより,多言語高密度検索におけるデータ利用率を向上させる手法を提案する。
16言語を用いた多言語検索ベンチマークであるMIRACLの実験結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 47.16651389111977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual dense retrieval aims to retrieve relevant documents across different languages based on a unified retriever model. The challenge lies in aligning representations of different languages in a shared vector space. The common practice is to fine-tune the dense retriever via contrastive learning, whose effectiveness highly relies on the quality of the negative sample and the efficacy of mini-batch data. Different from the existing studies that focus on developing sophisticated model architecture, we propose a method to boost data utilization for multilingual dense retrieval by obtaining high-quality hard negative samples and effective mini-batch data. The extensive experimental results on a multilingual retrieval benchmark, MIRACL, with 16 languages demonstrate the effectiveness of our method by outperforming several existing strong baselines.
- Abstract(参考訳): 多言語密集検索は、統合された検索モデルに基づいて、異なる言語にわたって関連文書を検索することを目的としている。
この課題は、異なる言語の表現を共有ベクトル空間内で整列させることにある。
一般的な手法は、負のサンプルの品質とミニバッチデータの有効性に大きく依存する、対照的な学習を通じて、密集したレトリバーを微調整することである。
高度なモデルアーキテクチャの開発に焦点をあてた既存の研究とは違い,高品質なハードネガティブサンプルと効果的なミニバッチデータを得ることにより,多言語密集検索におけるデータ利用率を高める手法を提案する。
16言語からなる多言語検索ベンチマークであるMIRACLの広範な実験結果から,提案手法の有効性が示された。
関連論文リスト
- Less Data Less Tokens: Multilingual Unification Learning for Efficient Test-Time Reasoning in LLMs [13.618284161265123]
本稿では,大規模言語モデル(LLM)のテスト時間スケーリングの課題について考察する。
パイロット研究に基づいて多言語推論の多様性を強調した。
我々は,新しいアプローチ (L2) を導入し,多言語統一学習を行った。
論文 参考訳(メタデータ) (2025-06-23T06:47:28Z) - Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data [59.30098850050971]
言語間の変換学習は、ラベル付きデータに制限のあるタスクのパフォーマンスを向上させることができる。
我々は、最寄りの検索を利用して、ターゲット言語における最小ラベル付きデータを増強する。
提案手法を8言語で評価し,対象言語データのみに基づいてトレーニングしたモデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-20T12:25:33Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。