論文の概要: Efficient and Versatile Model for Multilingual Information Retrieval of Islamic Text: Development and Deployment in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2509.15380v1
- Date: Thu, 18 Sep 2025 19:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.883366
- Title: Efficient and Versatile Model for Multilingual Information Retrieval of Islamic Text: Development and Deployment in Real-World Scenarios
- Title(参考訳): イスラムテキストの多言語情報検索のための効率的・可読性モデル:実世界のシナリオにおける開発と展開
- Authors: Vera Pavlova, Mohammed Makhlouf,
- Abstract要約: イラン語多言語コーパスの特徴を活用し、イスラムドメインのためのアドホックIRシステムを開発するための最適な戦略を検討する。
我々は,モノリンガル,クロスリンガル,トランスレーショナル・トレインオールの4つの訓練手法と,クロスリンガルとモノリンガルを併用した新しい混合手法を用いた11種類の検索モデルを構築した。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in Multilingual Information Retrieval (MLIR), a significant gap remains between research and practical deployment. Many studies assess MLIR performance in isolated settings, limiting their applicability to real-world scenarios. In this work, we leverage the unique characteristics of the Quranic multilingual corpus to examine the optimal strategies to develop an ad-hoc IR system for the Islamic domain that is designed to satisfy users' information needs in multiple languages. We prepared eleven retrieval models employing four training approaches: monolingual, cross-lingual, translate-train-all, and a novel mixed method combining cross-lingual and monolingual techniques. Evaluation on an in-domain dataset demonstrates that the mixed approach achieves promising results across diverse retrieval scenarios. Furthermore, we provide a detailed analysis of how different training configurations affect the embedding space and their implications for multilingual retrieval effectiveness. Finally, we discuss deployment considerations, emphasizing the cost-efficiency of deploying a single versatile, lightweight model for real-world MLIR applications.
- Abstract(参考訳): 近年のMLIR(Multilingual Information Retrieval)の進歩にもかかわらず、研究と実践的な展開の間には大きなギャップが残っている。
多くの研究は、孤立した環境でのMLIRの性能を評価し、現実のシナリオに適用性を制限する。
本研究では,イラン語多言語コーパスの特徴を活用し,複数の言語におけるユーザの情報ニーズを満たすために設計された,イスラムドメインのためのアドホックIRシステムを開発するための最適な戦略を検討する。
我々は,モノリンガル,クロスリンガル,トランスレーショナル・トレインオールの4つの訓練手法と,クロスリンガルとモノリンガルを併用した新しい混合手法を用いた11種類の検索モデルを構築した。
ドメイン内のデータセットの評価は、混合アプローチが様々な検索シナリオにまたがって有望な結果をもたらすことを示す。
さらに、異なるトレーニング構成が埋め込み空間にどのように影響するかを詳細に分析し、多言語検索の有効性について考察する。
最後に、実世界のMLIRアプリケーションのために、単一汎用軽量モデルをデプロイするコスト効率を強調し、デプロイメントの考慮事項について議論する。
関連論文リスト
- Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Multi-stage Training of Bilingual Islamic LLM for Neural Passage Retrieval [0.0]
この研究は、軽量なバイリンガル大言語モデル(LLM)を作成するために、言語削減技術を用いている。
ドメイン適応に対する我々のアプローチは、イランの領域内コーパスがアラビア語でのみ存在するイスラム領域で直面する固有の課題に対処する。
その結果、ドメイン適応と二言語的イスラム神経検索モデルの多段階学習法を組み合わせることで、下流検索タスクにおける単言語モデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2025-01-17T13:17:42Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact [5.803667039914564]
この作業は、実運用環境におけるMLLMの開発とデプロイのためのエンドツーエンドフレームワークを提供することによって、ギャップを埋める。
調査の結果,世界言語の88.38%が低資源言語に分類されるなど,言語多様性を支える上で重要な課題が明らかになった。
この調査は、より包括的で効果的な多言語AIシステムの開発に取り組んでいる実践者や研究者にとって不可欠なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-10-23T03:19:15Z) - Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。