Fugu-MT 論文翻訳(概要): Exploring Retrieval Augmented Generation in Arabic

論文の概要: Exploring Retrieval Augmented Generation in Arabic

arxiv url: http://arxiv.org/abs/2408.07425v1
Date: Wed, 14 Aug 2024 10:03:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 13:44:31.232727
Title: Exploring Retrieval Augmented Generation in Arabic
Title（参考訳）: アラビアにおける検索能力向上の探究
Authors: Samhaa R. El-Beltagy, Mohamed A. Abdallah,
Abstract要約: Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Retrieval Augmented Generation (RAG) has emerged as a powerful technique in natural language processing, combining the strengths of retrieval-based and generation-based models to enhance text generation tasks. However, the application of RAG in Arabic, a language with unique characteristics and resource constraints, remains underexplored. This paper presents a comprehensive case study on the implementation and evaluation of RAG for Arabic text. The work focuses on exploring various semantic embedding models in the retrieval stage and several LLMs in the generation stage, in order to investigate what works and what doesn't in the context of Arabic. The work also touches upon the issue of variations between document dialect and query dialect in the retrieval stage. Results show that existing semantic embedding models and LLMs can be effectively employed to build Arabic RAG pipelines.
Abstract（参考訳）: 近年,検索ベースモデルと生成ベースモデルの強みを融合してテキスト生成タスクを向上する,自然言語処理における強力な手法として,検索型拡張生成(RAG)が登場している。しかしながら、独自の特徴とリソース制約を持つ言語であるアラビア語でのRAGの適用については、未検討のままである。本稿ではアラビア文字に対するRAGの実装と評価に関する包括的ケーススタディを提案する。この研究は、アラビア語の文脈で何が機能し、何が機能しないかを調査するために、検索段階における様々なセマンティック埋め込みモデルと世代段階における複数のLCMを探索することに焦点を当てている。この研究は、検索段階における文書方言とクエリ方言のバリエーションの問題にも触れている。その結果,既存のセマンティック埋め込みモデルとLLMを効果的に利用してアラビアRAGパイプラインを構築することが可能であることが示唆された。

関連論文リスト

Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis [20.50741854108831]
本稿では,特殊・統一された音声合成モデルであるHabibiを紹介する。当社のアプローチは、先進的な商用サービスの世代品質を上回ります。我々は、多言語アラビア語音声合成のための最初の体系的ベンチマークを作成する。
論文参考訳（メタデータ） (2026-01-20T10:02:11Z)
Dhati+: Fine-tuned Large Language Models for Arabic Subjectivity Evaluation [0.0]
その重要性にもかかわらず、アラビア語は資金不足に直面している。大きな注釈付きデータセットの不足は、アラビア語の主観分析のための正確なツールの開発を妨げている。近年のディープラーニングとトランスフォーマーの進歩は、英語とフランス語のテキスト分類に非常に効果的であることが証明されている。
論文参考訳（メタデータ） (2025-08-27T15:20:12Z)
A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [71.66119575697458]
トークン・バイ・トークン生成のボトルネックを破り、推論効率を向上させることを目的とした並列テキスト生成技術。既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類し、各カテゴリの中核技術について詳細に検討する。我々は、最近の進歩を強調し、オープンな課題を特定し、並列テキスト生成における将来的な研究の方向性を概説する。
論文参考訳（メタデータ） (2025-08-12T07:56:04Z)
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T10:18:28Z)
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training [1.4231093967875448]
General Arabic Text Embedding (GATE) モデルはMTEBベンチマークのセマンティックテキスト類似性タスクで最先端のパフォーマンスを達成する。 Gateは、STSベンチマークで20-25%のパフォーマンス改善により、OpenAIを含むより大きなモデルを上回っている。
論文参考訳（メタデータ） (2025-05-30T13:29:03Z)
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文参考訳（メタデータ） (2025-04-30T09:56:36Z)
Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。 Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。 1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-12-23T13:08:48Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文参考訳（メタデータ） (2024-09-17T17:59:25Z)
ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。 MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文参考訳（メタデータ） (2024-08-15T07:09:51Z)
GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文参考訳（メタデータ） (2024-07-02T10:43:49Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
From Classification to Generation: Insights into Crosslingual Retrieval Augmented ICL [8.065775937617417]
クロスランガル検索強化インコンテキスト学習(CREA-ICL)を利用した新しい手法を提案する。高ソース言語から意味論的に類似したプロンプトを抽出することにより、多言語事前学習言語モデル(MPLM)のゼロショット性能の向上を目指す。我々の手法は分類タスクを着実に改善するが、生成タスクでは課題に直面している。
論文参考訳（メタデータ） (2023-11-11T15:40:21Z)
Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文参考訳（メタデータ） (2023-10-25T03:58:49Z)
Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。 Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文参考訳（メタデータ） (2023-05-24T16:17:36Z)
Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文参考訳（メタデータ） (2023-05-11T17:13:40Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Unsupervised Text Generation by Learning from Search [86.51619839836331]
TGLSは、教師なしテキスト生成のための新しいフレームワークである。実世界の自然言語生成タスクであるパラフレーズ生成とテキストの形式化におけるTGLSの有効性を示す。
論文参考訳（メタデータ） (2020-07-09T04:34:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。