論文の概要: Exploring Retrieval Augmented Generation in Arabic
- arxiv url: http://arxiv.org/abs/2408.07425v1
- Date: Wed, 14 Aug 2024 10:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:44:31.232727
- Title: Exploring Retrieval Augmented Generation in Arabic
- Title(参考訳): アラビアにおける検索能力向上の探究
- Authors: Samhaa R. El-Beltagy, Mohamed A. Abdallah,
- Abstract要約: Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。
本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Retrieval Augmented Generation (RAG) has emerged as a powerful technique in natural language processing, combining the strengths of retrieval-based and generation-based models to enhance text generation tasks. However, the application of RAG in Arabic, a language with unique characteristics and resource constraints, remains underexplored. This paper presents a comprehensive case study on the implementation and evaluation of RAG for Arabic text. The work focuses on exploring various semantic embedding models in the retrieval stage and several LLMs in the generation stage, in order to investigate what works and what doesn't in the context of Arabic. The work also touches upon the issue of variations between document dialect and query dialect in the retrieval stage. Results show that existing semantic embedding models and LLMs can be effectively employed to build Arabic RAG pipelines.
- Abstract(参考訳): 近年,検索ベースモデルと生成ベースモデルの強みを融合してテキスト生成タスクを向上する,自然言語処理における強力な手法として,検索型拡張生成(RAG)が登場している。
しかしながら、独自の特徴とリソース制約を持つ言語であるアラビア語でのRAGの適用については、未検討のままである。
本稿ではアラビア文字に対するRAGの実装と評価に関する包括的ケーススタディを提案する。
この研究は、アラビア語の文脈で何が機能し、何が機能しないかを調査するために、検索段階における様々なセマンティック埋め込みモデルと世代段階における複数のLCMを探索することに焦点を当てている。
この研究は、検索段階における文書方言とクエリ方言のバリエーションの問題にも触れている。
その結果,既存のセマンティック埋め込みモデルとLLMを効果的に利用してアラビアRAGパイプラインを構築することが可能であることが示唆された。
関連論文リスト
- AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。
MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。
本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文 参考訳(メタデータ) (2024-08-15T07:09:51Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - From Classification to Generation: Insights into Crosslingual Retrieval
Augmented ICL [8.065775937617417]
クロスランガル検索強化インコンテキスト学習(CREA-ICL)を利用した新しい手法を提案する。
高ソース言語から意味論的に類似したプロンプトを抽出することにより、多言語事前学習言語モデル(MPLM)のゼロショット性能の向上を目指す。
我々の手法は分類タスクを着実に改善するが、生成タスクでは課題に直面している。
論文 参考訳(メタデータ) (2023-11-11T15:40:21Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Unsupervised Text Generation by Learning from Search [86.51619839836331]
TGLSは、教師なしテキスト生成のための新しいフレームワークである。
実世界の自然言語生成タスクであるパラフレーズ生成とテキストの形式化におけるTGLSの有効性を示す。
論文 参考訳(メタデータ) (2020-07-09T04:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。