論文の概要: Quantum-RAG and PunGPT2: Advancing Low-Resource Language Generation and Retrieval for the Punjabi Language
- arxiv url: http://arxiv.org/abs/2508.01918v1
- Date: Sun, 03 Aug 2025 21:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.118665
- Title: Quantum-RAG and PunGPT2: Advancing Low-Resource Language Generation and Retrieval for the Punjabi Language
- Title(参考訳): 量子RAGとPunGPT2:Punjabi言語のための低リソース言語生成と検索
- Authors: Jaskaranjeet Singh, Rakesh Thakur,
- Abstract要約: PunGPT2はPunjabiの大規模言語モデルの最初の完全なオープンソーススイートである。
また、Pun-RAGは、PunGPT2と高密度FAISSレトリバーを組み合わせた検索拡張生成フレームワークである。
本稿では,スパース (BM25) と高密度手法を融合した新しいハイブリッド検索システムであるQuantum-RAGを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancement of large language models (LLMs), low-resource languages remain largely excluded from the NLP landscape. We present PunGPT2, the first fully open-source suite of Punjabi large language models, trained from scratch on a 35GB domain-diverse corpus encompassing literature, religious texts, news, and social discourse. Unlike prior multilingual approaches, PunGPT2 captures rich syntactic and morphological features unique to Punjabi through a tokenizer optimised with byte pair encoding and linguistically aligned pretraining objectives. To improve factual grounding and domain recall, we introduce Pun-RAG, a retrieval-augmented generation framework combining PunGPT2 with a dense FAISS retriever over a curated Punjabi knowledge base. We further develop Pun-Instruct, a parameter-efficient, instruction-tuned variant using QLoRA, enabling robust zero-shot and instruction-following performance with significantly reduced compute needs. As a key innovation, we propose Quantum-RAG, a novel hybrid retrieval system that fuses sparse (BM25) and dense methods with quantum-inspired semantic matching. By encoding queries using amplitude-based embeddings and retrieving via quantum kernel similarity, Quantum-RAG achieves improved contextual relevance with minimal memory overhead marking the first practical integration of quantum representations in low-resource language generation. Our models significantly outperform strong multilingual baselines (mBERT, mT5, MuRIL) in perplexity, factuality, and fluency. This work provides a scalable, reproducible blueprint for extending LLM capabilities to underrepresented languages and pioneers quantum-aware retrieval in low-resource NLP
- Abstract(参考訳): 大規模言語モデル (LLM) の急速な進歩にもかかわらず、低リソース言語は NLP の状況から除外されている。
PunGPT2は,文学,宗教テキスト,ニュース,社会談話などを含む35GBのドメイン多言語コーパスをスクラッチからトレーニングした,Punjabiの大規模言語モデルの最初のオープンソーススイートである。
従来の多言語アプローチとは異なり、PunGPT2はバイトペアエンコーディングと言語的に整列された事前学習目的を最適化したトークン化剤によって、パンジャービ特有の豊富な構文的および形態的特徴を捉えている。
PunGPT2と高密度FAISSレトリバーを組み合わせた検索拡張生成フレームワークであるPun-RAGを,キュレートされたPunjabi知識ベース上で導入した。
さらに,パラメータ効率のよいQLoRAを用いた命令調整型であるPun-Instructを開発した。
提案するQuantum-RAGは,スパース (BM25) と高密度な手法を量子インスパイアされたセマンティックマッチングで融合する新しいハイブリッド検索システムである。
振幅ベースの埋め込みを用いたクエリの符号化と量子カーネルの類似性による検索により、Quantum-RAGは、低リソース言語生成における量子表現の最初の実用的な統合を示す最小メモリオーバーヘッドによるコンテキスト関連性の向上を実現している。
我々のモデルは、多言語ベースライン(mBERT, mT5, MuRIL)の難易度、事実性、流布度において著しく優れています。
この研究は、LLM機能を未表現言語に拡張するためのスケーラブルで再現可能な青写真を提供し、低リソースNLPにおける量子認識検索の先駆者となる。
関連論文リスト
- Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。
発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。
量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文 参考訳(メタデータ) (2025-07-25T22:35:10Z) - NeoBabel: A Multilingual Open Tower for Visual Generation [32.79724699684266]
我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。
英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。
それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T16:19:45Z) - Leveraging the Potential of Prompt Engineering for Hate Speech Detection in Low-Resource Languages [2.8811725782388686]
本稿では,低リソースベンガル言語に着目した大規模言語モデル (LLM) の迅速なエンジニアリングにより,その限界を克服する方法について検討する。
我々は、ゼロショットプロンプト、拒絶抑制、分類器のフラット化、マルチショットプロンプト、ロールプロンプト、そして最後に、低リソース言語でヘイトスピーチを効果的に検出する革新的なメタファーの6つのプロンプトについて検討する。
低リソースのベンガル語におけるメタファーの有効性を証明するため、別の低リソースのヒンディー語と2つの高リソースの言語(英語とドイツ語)で評価した。
論文 参考訳(メタデータ) (2025-06-30T14:59:25Z) - Efficient Generation of Parameterised Quantum Circuits from Large Texts [0.3298092151372303]
DisCoCircは、文書全体をパラメータ化された量子回路(PQC)として直接符号化することができる
本稿では,前グループ図のツリー様表現を用いて,大規模テキストを量子回路に変換する手法を提案する。
論文 参考訳(メタデータ) (2025-05-19T14:57:53Z) - HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - Toward Quantum Machine Translation of Syntactically Distinct Languages [0.0]
ノイズの多い中間規模量子(NISQ)デバイス上での量子自然言語処理アルゴリズムを用いた言語翻訳の実現可能性について検討する。
パラメタライズド量子回路の性能において、回転ゲートの適切な角度が重要な役割を果たすことを示すためにシャノンエントロピーを用いる。
論文 参考訳(メタデータ) (2023-07-31T11:24:54Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。