論文の概要: Quantum-RAG and PunGPT2: Advancing Low-Resource Language Generation and Retrieval for the Punjabi Language
- arxiv url: http://arxiv.org/abs/2508.01918v2
- Date: Fri, 03 Oct 2025 10:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.962915
- Title: Quantum-RAG and PunGPT2: Advancing Low-Resource Language Generation and Retrieval for the Punjabi Language
- Title(参考訳): 量子RAGとPunGPT2:Punjabi言語のための低リソース言語生成と検索
- Authors: Jaskaranjeet Singh, Rakesh Thakur,
- Abstract要約: PunGPT2は,世界初の完全オープンソースPunjabi生成モデルスイートである。
PunGPT2は、Gurmukhi と Shahmukhi のスクリプトに最適化されたトークン化剤によって、パンジャービの構文的および形態的豊かさを捉えている。
PunGPT2をFAISSレトリバーと統合した検索拡張フレームワークであるPun-RAGをPunjabiナレッジベース上で導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advances in large language models (LLMs), low-resource languages remain excluded from NLP, limiting digital access for millions. We present PunGPT2, the first fully open-source Punjabi generative model suite, trained on a 35GB corpus covering literature, religious texts, news, social discourse, etc. PunGPT2 captures Punjabi's syntactic and morphological richness through a tokenizer optimized for Gurmukhi and Shahmukhi scripts. We introduce Pun-RAG, a retrieval-augmented framework integrating PunGPT2 with a FAISS retriever over a curated Punjabi knowledge base, and Pun-Instruct, an instruction-tuned variant using QLoRA for robust zero-shot summarization, translation, and question answering. Our key innovation, Quantum-RAG, fuses sparse, dense, and quantum kernel embeddings for efficient, context-aware retrieval with low memory overhead, marking the first practical quantum-inspired retrieval in a low-resource LLM. Our models outperform multilingual baselines (mBERT, mT5, MuRIL, BLOOM) on FLORES-200, IndicGenBench, and a new PunjabiEval suite. Quantum-RAG yields +7.4 Recall@10 over FAISS and +3.5 BLEU over mT5 on PunjabiEval. We publicly release all training scripts, hyperparameters, evaluation pipelines, the 35GB Punjabi corpus, the PunjabiEval benchmark, and all model weights, establishing new state-of-the-art results for Punjabi language generation and retrieval.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩にもかかわらず、低リソース言語はNLPから除外され、数百万のデジタルアクセスが制限されている。
PunGPT2は,文学,宗教テキスト,ニュース,社会談話などをカバーする35GBコーパスでトレーニングされた,初の完全オープンソースPunjabi生成モデルスイートである。
PunGPT2は、Gurmukhi と Shahmukhi のスクリプトに最適化されたトークン化剤によって、パンジャービの構文的および形態的豊かさを捉えている。
Pun-RAGは、PunGPT2とFAISSレトリバーを統合した検索拡張フレームワークであり、Pun-Instructは、QLoRAを用いて、堅牢なゼロショット要約、翻訳、質問応答を行う。
私たちの重要なイノベーションであるQuantum-RAGは、スパース、密度、量子カーネルの埋め込みを融合させ、メモリオーバーヘッドの少ない効率的でコンテキスト対応の検索を可能にします。
我々のモデルは、FLORES-200、IndicGenBench、新しいPunjabiEvalスイート上で、多言語ベースライン(mBERT, mT5, MuRIL, BLOOM)より優れています。
量子RAGはFAISSで+7.4 Recall@10、PunjabiEvalで+3.5 BLEU、mT5で+3.5 BLEUとなる。
トレーニングスクリプト,ハイパーパラメータ,評価パイプライン,35GBのPunjabiコーパス,PunjabiEvalベンチマーク,およびすべてのモデルウェイトを公開し,Punjabi言語の生成と検索のための新たな最先端結果を確立する。
関連論文リスト
- Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。
発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。
量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文 参考訳(メタデータ) (2025-07-25T22:35:10Z) - NeoBabel: A Multilingual Open Tower for Visual Generation [32.79724699684266]
我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。
英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。
それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T16:19:45Z) - Leveraging the Potential of Prompt Engineering for Hate Speech Detection in Low-Resource Languages [2.8811725782388686]
本稿では,低リソースベンガル言語に着目した大規模言語モデル (LLM) の迅速なエンジニアリングにより,その限界を克服する方法について検討する。
我々は、ゼロショットプロンプト、拒絶抑制、分類器のフラット化、マルチショットプロンプト、ロールプロンプト、そして最後に、低リソース言語でヘイトスピーチを効果的に検出する革新的なメタファーの6つのプロンプトについて検討する。
低リソースのベンガル語におけるメタファーの有効性を証明するため、別の低リソースのヒンディー語と2つの高リソースの言語(英語とドイツ語)で評価した。
論文 参考訳(メタデータ) (2025-06-30T14:59:25Z) - Efficient Generation of Parameterised Quantum Circuits from Large Texts [0.3298092151372303]
DisCoCircは、文書全体をパラメータ化された量子回路(PQC)として直接符号化することができる
本稿では,前グループ図のツリー様表現を用いて,大規模テキストを量子回路に変換する手法を提案する。
論文 参考訳(メタデータ) (2025-05-19T14:57:53Z) - HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - Toward Quantum Machine Translation of Syntactically Distinct Languages [0.0]
ノイズの多い中間規模量子(NISQ)デバイス上での量子自然言語処理アルゴリズムを用いた言語翻訳の実現可能性について検討する。
パラメタライズド量子回路の性能において、回転ゲートの適切な角度が重要な役割を果たすことを示すためにシャノンエントロピーを用いる。
論文 参考訳(メタデータ) (2023-07-31T11:24:54Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。