Fugu-MT 論文翻訳(概要): Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust

論文の概要: Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust

arxiv url: http://arxiv.org/abs/2411.06151v1
Date: Sat, 09 Nov 2024 11:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.084331
Title: Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust
Title（参考訳）: ラストにおけるマルチプロセス設計を活用したイスラムドメインのための多言語非生産IRシステムの構築
Authors: Vera Pavlova, Mohammed Makhlouf,
Abstract要約: 本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The widespread use of large language models (LLMs) has dramatically improved many applications of Natural Language Processing (NLP), including Information Retrieval (IR). However, domains that are not driven by commercial interest often lag behind in benefiting from AI-powered solutions. One such area is religious and heritage corpora. Alongside similar domains, Islamic literature holds significant cultural value and is regularly utilized by scholars and the general public. Navigating this extensive amount of text is challenging, and there is currently no unified resource that allows for easy searching of this data using advanced AI tools. This work focuses on the development of a multilingual non-profit IR system for the Islamic domain. This process brings a few major challenges, such as preparing multilingual domain-specific corpora when data is limited in certain languages, deploying a model on resource-constrained devices, and enabling fast search on a limited budget. By employing methods like continued pre-training for domain adaptation and language reduction to decrease model size, a lightweight multilingual retrieval model was prepared, demonstrating superior performance compared to larger models pre-trained on general domain data. Furthermore, evaluating the proposed architecture that utilizes Rust Language capabilities shows the possibility of implementing efficient semantic search in a low-resource setting.
Abstract（参考訳）: 大規模言語モデル(LLM)の普及は、情報検索(IR)を含む自然言語処理(NLP)の多くの応用を劇的に改善した。しかし、商業的関心に駆られていないドメインは、AIによるソリューションの恩恵に遅れることが多い。その一つが宗教と遺産のコーパスである。同様の領域の他に、イスラーム文学は文化的に重要な価値を持ち、学者や一般大衆によって定期的に活用されている。この膨大な量のテキストをナビゲートすることは困難であり、現在、高度なAIツールを使用してデータを簡単に検索できる統一されたリソースは存在しない。本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。このプロセスは、特定の言語でデータが制限されている場合の多言語ドメイン固有のコーパスの作成、リソース制約のあるデバイスにモデルをデプロイすること、限られた予算で高速な検索を可能にするなど、いくつかの大きな課題をもたらす。ドメイン適応の継続事前学習や言語縮小によるモデルサイズ削減といった手法を用いて,汎用ドメインデータに事前学習された大規模モデルと比較して,優れた性能を示す軽量多言語検索モデルを構築した。さらに、Rust言語機能を利用したアーキテクチャの評価は、低リソース環境で効率的なセマンティック検索を実装する可能性を示している。

関連論文リスト

RetrieveAll: A Multilingual Named Entity Recognition Framework with Large Language Models [7.867158538366131]
既存の多言語NER法は多言語適応過程において言語干渉に直面する。動的LoRAに基づく多言語NERフレームワークRetrieveAllを提案する。本稿では,データ固有のポテンシャルをフル活用した粒界知識拡張手法を提案する。
論文参考訳（メタデータ） (2025-05-25T12:52:18Z)
Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language [5.886032029544411]
ドメイン適応型連続事前訓練(ドメイン適応型連続事前訓練、DAPT)は、言語マスキング(英語版)などの事前訓練タスクにおいて、言語モデル(LM)をさらに訓練する最先端の技術である。 In-context Learning (ICL) と k-nearest neighbors (kNN) を利用して、ドメイン関連およびドメイン内テキストによるターゲットデータの拡張を行う。以上の結果から,従来のDAPTよりも平均赤外域の3.5ポイント向上し,計算コストの約4倍の削減が期待できることがわかった。
論文参考訳（メタデータ） (2025-04-28T14:49:00Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Multi-stage Training of Bilingual Islamic LLM for Neural Passage Retrieval [0.0]
この研究は、軽量なバイリンガル大言語モデル(LLM)を作成するために、言語削減技術を用いている。ドメイン適応に対する我々のアプローチは、イランの領域内コーパスがアラビア語でのみ存在するイスラム領域で直面する固有の課題に対処する。その結果、ドメイン適応と二言語的イスラム神経検索モデルの多段階学習法を組み合わせることで、下流検索タスクにおける単言語モデルよりも優れていることが示唆された。
論文参考訳（メタデータ） (2025-01-17T13:17:42Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文参考訳（メタデータ） (2024-08-23T08:10:13Z)
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文参考訳（メタデータ） (2024-07-30T08:50:16Z)
ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文参考訳（メタデータ） (2024-02-23T02:21:24Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文参考訳（メタデータ） (2023-06-02T23:04:19Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
How Low is Too Low? A Computational Perspective on Extremely Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文参考訳（メタデータ） (2021-05-30T12:09:59Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。