Fugu-MT 論文翻訳(概要): PersianRAG: A Retrieval-Augmented Generation System for Persian Language

論文の概要: PersianRAG: A Retrieval-Augmented Generation System for Persian Language

arxiv url: http://arxiv.org/abs/2411.02832v2
Date: Wed, 06 Nov 2024 11:19:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.496399
Title: PersianRAG: A Retrieval-Augmented Generation System for Persian Language
Title（参考訳）: ペルシャラグ : ペルシャ語のための検索拡張生成システム
Authors: Hossein Hosseini, Mohammad Sobhan Zare, Amir Hossein Mohammadi, Arefeh Kazemi, Zahra Zojaji, Mohammad Ali Nematbakhsh,
Abstract要約: Retrieval augmented generation (RAG) モデルは、大規模な事前訓練された生成モデルと外部検索機構を統合している。これらの課題は、主に前処理、埋め込み、検索、迅速な構築、言語モデリング、システムの応答評価を含む。これらの障害を克服する新しい解決策を提案し、ペルシャのベンチマークデータセットを用いて我々のアプローチを評価する。
参考スコア（独自算出の注目度）: 4.461903479596797
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Retrieval augmented generation (RAG) models, which integrate large-scale pre-trained generative models with external retrieval mechanisms, have shown significant success in various natural language processing (NLP) tasks. However, applying RAG models in Persian language as a low-resource language, poses distinct challenges. These challenges primarily involve the preprocessing, embedding, retrieval, prompt construction, language modeling, and response evaluation of the system. In this paper, we address the challenges towards implementing a real-world RAG system for Persian language called PersianRAG. We propose novel solutions to overcome these obstacles and evaluate our approach using several Persian benchmark datasets. Our experimental results demonstrate the capability of the PersianRAG framework to enhance question answering task in Persian.
Abstract（参考訳）: 大規模事前学習生成モデルと外部検索機構を統合した検索拡張生成(RAG)モデルは,自然言語処理(NLP)タスクにおいて大きな成功を収めている。しかしながら、ペルシア語のRAGモデルを低リソース言語として適用することは、異なる課題を提起する。これらの課題は、主に前処理、埋め込み、検索、迅速な構築、言語モデリング、システムの応答評価を含む。本稿では,ペルシア語におけるRAGシステムの実現に向けた課題について述べる。これらの障害を克服する新しい解決策を提案し、ペルシャのベンチマークデータセットを用いて我々のアプローチを評価する。実験の結果,ペルシャにおける質問応答タスクの強化にペルシャのRAGフレームワークが有効であることを実証した。

関連論文リスト

Predict the Retrieval! Test time adaptation for Retrieval Augmented Generation [66.36556189794526]
TTARAGは、特殊ドメインにおけるRAGシステム性能を改善するために、推論中に言語モデルのパラメータを動的に更新するテスト時適応手法である。提案手法では,モデルが検索した内容の予測を学習し,対象領域への自動パラメータ調整を可能にする。
論文参考訳（メタデータ） (2026-01-16T17:07:01Z)
Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning [0.0]
本稿では,ペルシャ自然言語処理タスクのためのオープンソースの大規模言語モデル (LLM) のベンチマークを示す。我々は、感情分析、名前付きエンティティ認識、読書理解、質問応答など、様々なタスクのモデルを評価する。その結果、Gemma 2は両方の学習パラダイムにおいて、ほぼすべてのタスクで、他のモデルよりも一貫して優れています。
論文参考訳（メタデータ） (2025-10-05T10:10:04Z)
PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0]
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-05-27T14:14:55Z)
Hakim: Farsi Text Embedding Model [1.0485739694839669]
Hakimは、新しいテキスト埋め込みモデルで、FaMTEBベンチマークの既存のアプローチよりも8.5%パフォーマンス改善を実現している。コーデシア、Pairsia-sup、Pairsia-unsupの3つの新しいデータセットを導入し、教師なしおよび教師なしのトレーニングシナリオをサポートする。一方,RetroMAEに基づく言語モデルでは,テキスト情報検索に特に有効であることが証明されている。
論文参考訳（メタデータ） (2025-05-13T10:57:32Z)
Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization [0.0]
本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。 3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。 MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
論文参考訳（メタデータ） (2025-01-08T22:16:40Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
QueEn: A Large Language Model for Quechua-English Translation [20.377876059048692]
本稿では,Retrieval-Augmented Generation(RAG)とパラメータ効率のよい微調整技術を組み合わせた,ケチュア英訳の新しい手法であるQueEnを提案する。 BLEUスコアは標準GPTモデルの1.5に対して17.6である。
論文参考訳（メタデータ） (2024-12-06T17:04:21Z)
Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文参考訳（メタデータ） (2024-11-09T11:37:18Z)
Exploring Retrieval Augmented Generation in Arabic [0.0]
Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
論文参考訳（メタデータ） (2024-08-14T10:03:28Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。 6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文参考訳（メタデータ） (2024-03-01T05:28:06Z)
Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。 LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文参考訳（メタデータ） (2023-08-14T12:47:22Z)
SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文参考訳（メタデータ） (2023-05-18T17:23:00Z)
ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文参考訳（メタデータ） (2022-05-30T10:31:08Z)
Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文参考訳（メタデータ） (2021-09-27T15:04:00Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。