論文の概要: Multilingual Information Retrieval with a Monolingual Knowledge Base
- arxiv url: http://arxiv.org/abs/2506.02527v1
- Date: Tue, 03 Jun 2025 07:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.380987
- Title: Multilingual Information Retrieval with a Monolingual Knowledge Base
- Title(参考訳): 単言語知識ベースを用いた多言語情報検索
- Authors: Yingying Zhuang, Aman Gupta, Anurag Beniwal,
- Abstract要約: 強調学習のための重み付きサンプリングによる多言語埋め込みモデルを微調整する新しい手法を提案する。
重み付きサンプリング方式では,MRRでは最大31.03%,Recall@3では最大33.98%の性能向上が見られた。
- 参考スコア(独自算出の注目度): 2.419638771866955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual information retrieval has emerged as powerful tools for expanding knowledge sharing across languages. On the other hand, resources on high quality knowledge base are often scarce and in limited languages, therefore an effective embedding model to transform sentences from different languages into a feature vector space same as the knowledge base language becomes the key ingredient for cross language knowledge sharing, especially to transfer knowledge available in high-resource languages to low-resource ones. In this paper we propose a novel strategy to fine-tune multilingual embedding models with weighted sampling for contrastive learning, enabling multilingual information retrieval with a monolingual knowledge base. We demonstrate that the weighted sampling strategy produces performance gains compared to standard ones by up to 31.03\% in MRR and up to 33.98\% in Recall@3. Additionally, our proposed methodology is language agnostic and applicable for both multilingual and code switching use cases.
- Abstract(参考訳): 言語間の知識共有を拡大するための強力なツールとして,多言語情報検索が登場している。
一方、高品質な知識ベースのリソースは限られており、限られた言語でしか利用できないため、異なる言語からの文を知識ベース言語と同じ特徴ベクトル空間に変換する効果的な埋め込みモデルが、特に高リソース言語で利用可能な知識を低リソース言語に転送する上で、クロス言語知識共有の鍵となる。
本稿では,単言語知識ベースを用いた多言語情報検索を実現するため,重み付きサンプルを用いた多言語埋め込みモデル構築のための新しい手法を提案する。
重み付きサンプリング方式では,MRRでは最大31.03\%,Recall@3では最大33.98\%の性能向上が期待できる。
さらに,提案手法は言語非依存であり,多言語・コード切替ユースケースにも適用可能である。
関連論文リスト
- Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - MetaXLR -- Mixed Language Meta Representation Transformation for
Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。
我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文 参考訳(メタデータ) (2023-05-31T18:22:33Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Leveraging Knowledge in Multilingual Commonsense Reasoning [25.155987513306854]
本稿では,翻訳・検索・翻訳(TRT)戦略を用いて,英語の知識ソースを活用することを提案する。
多言語コモンセンスの質問や選択に対して,知識ソースからの翻訳や検索を通じて関連する知識を収集する。
検索した知識は対象言語に翻訳され、事前訓練された多言語言語モデルに統合される。
論文 参考訳(メタデータ) (2021-10-16T03:51:53Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。