論文の概要: Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization
- arxiv url: http://arxiv.org/abs/2501.04858v1
- Date: Wed, 08 Jan 2025 22:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 17:34:41.34139
- Title: Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization
- Title(参考訳): ペルシャ語における検索強化生成の促進:言語モデルの開発、総合ベンチマーク、最適化のためのベストプラクティス
- Authors: Sara Bourbour Hosseinbeigi, Sina Asghari, Mohammad Ali Seif Kashani, Mohammad Hossein Shalchian, Mohammad Amin Abbasi,
- Abstract要約: 本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。
3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。
MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper examines the specific obstacles of constructing Retrieval-Augmented Generation(RAG) systems in low-resource languages, with a focus on Persian's complicated morphology and versatile syntax. The research aims to improve retrieval and generation accuracy by introducing Persian-specific models, namely MatinaRoberta(a masked language model) and MatinaSRoberta(a fine-tuned Sentence-BERT), along with a comprehensive benchmarking framework. Three datasets-general knowledge(PQuad), scientifically specialized texts, and organizational reports, were used to assess these models after they were trained on a varied corpus of 73.11 billion Persian tokens. The methodology involved extensive pretraining, fine-tuning with tailored loss functions, and systematic evaluations using both traditional metrics and the Retrieval-Augmented Generation Assessment framework. The results show that MatinaSRoberta outperformed previous embeddings, achieving superior contextual relevance and retrieval accuracy across datasets. Temperature tweaking, chunk size modifications, and document summary indexing were explored to enhance RAG setups. Larger models like Llama-3.1 (70B) consistently demonstrated the highest generation accuracy, while smaller models faced challenges with domain-specific and formal contexts. The findings underscore the potential for developing RAG systems in Persian through customized embeddings and retrieval-generation settings and highlight the enhancement of NLP applications such as search engines and legal document analysis in low-resource languages.
- Abstract(参考訳): 本稿では,低リソース言語における検索・拡張生成(RAG)システム構築の具体的な障害について検討し,ペルシャ語の複雑な形態と汎用構文に着目した。
この研究は、ペルシア固有のモデルであるMatinaRoberta(マスク付き言語モデル)とMatinaSRoberta(微調整されたSentence-BERT)を包括的なベンチマークフレームワークとともに導入することで、検索と生成の精度を向上させることを目的としている。
3つのデータセット・ジェネラル・ナレッジ(PQuad)、科学的に専門化されたテキスト、組織報告は、7311億のペルシャトークンの様々なコーパスで訓練された後、これらのモデルを評価するために使用された。
この手法には、広範囲な事前訓練、調整された損失関数による微調整、および従来のメトリクスとRetrieval-Augmented Generation Assessmentフレームワークを用いた体系的な評価が含まれていた。
その結果,MatinaSRobertaは従来の埋め込みよりも優れており,データセット間のコンテキスト関連性や検索精度に優れていた。
RAGセットアップを強化するため,温度調整,チャンクサイズ修正,文書要約インデックス化について検討した。
Llama-3.1 (70B)のようなより大型のモデルは一貫して最高の世代精度を示し、小さなモデルはドメイン固有および形式的コンテキストの課題に直面した。
この結果から,ペルシャ語におけるRAGシステム開発の可能性を明らかにするとともに,低リソース言語における検索エンジンや法的文書分析などのNLPアプリケーションの強化を強調した。
関連論文リスト
- Replication and Exploration of Generative Retrieval over Dynamic Corpora [87.09185685594105]
情報検索(IR)における有望なパラダイムとして生成検索(GR)が登場している。
既存のGRモデルと数値テキストに基づくドシデントは、未確認文書に対して優れた一般化を示す。
本稿では,数値ベースドクトの効率とテキストベースドクトの有効性を両立させる新しいマルチドクト設計を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:01:23Z) - Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey [29.186229489968564]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) と外部情報検索を統合し、自然言語処理に革命をもたらした。
RAGシステムの評価は、検索と生成コンポーネントを組み合わせたハイブリッドアーキテクチャのため、ユニークな課題を示す。
論文 参考訳(メタデータ) (2025-04-21T06:39:47Z) - Building Russian Benchmark for Evaluation of Information Retrieval Models [0.0]
RusBEIRは、ロシア語における情報検索モデルの評価のためのベンチマークである。
適応、翻訳、新しく作成されたデータセットを統合し、語彙モデルとニューラルモデルの比較を可能にする。
論文 参考訳(メタデータ) (2025-04-17T12:11:14Z) - A Survey on Knowledge-Oriented Retrieval-Augmented Generation [45.65542434522205]
近年,RAG (Retrieval-Augmented Generation) が注目されている。
RAGは大規模検索システムと生成モデルを組み合わせる。
動的外部知識を用いた生成モデルの強化など,RAGの重要な特徴について論じる。
論文 参考訳(メタデータ) (2025-03-11T01:59:35Z) - PersianRAG: A Retrieval-Augmented Generation System for Persian Language [4.461903479596797]
Retrieval augmented generation (RAG) モデルは、大規模な事前訓練された生成モデルと外部検索機構を統合している。
これらの課題は、主に前処理、埋め込み、検索、迅速な構築、言語モデリング、システムの応答評価を含む。
これらの障害を克服する新しい解決策を提案し、ペルシャのベンチマークデータセットを用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-11-05T06:11:17Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - Assessing generalization capability of text ranking models in Polish [0.0]
Retrieval-augmented Generation (RAG) は、内部知識ベースと大規模言語モデルを統合する技術として、ますます人気が高まっている。
本稿では,ポーランド語におけるリランク問題に着目し,リランカーの性能について検討する。
私たちのモデルの中で最高のものは、ポーランド語で再ランク付けするための新しい最先端技術を確立し、最大30倍のパラメータを持つ既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-22T06:21:41Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - The Power of Noise: Redefining Retrieval for RAG Systems [19.387105120040157]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの事前学習知識を超えて拡張する方法として登場した。
我々は、RAGソリューションが取得すべきパスIRシステムの種類に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-26T14:14:59Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。