論文の概要: Towards Comprehensive Vietnamese Retrieval-Augmented Generation and
Large Language Models
- arxiv url: http://arxiv.org/abs/2403.01616v2
- Date: Tue, 5 Mar 2024 18:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:36:33.465441
- Title: Towards Comprehensive Vietnamese Retrieval-Augmented Generation and
Large Language Models
- Title(参考訳): ベトナムの包括的検索型世代と大規模言語モデルに向けて
- Authors: Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh,
Le Thanh Huong, Dinh Viet Sang
- Abstract要約: 本稿では,ベトナムのレトリーバル強化世代(RAG)とLarge Language Models(LLMs)のためのオープンデータセットと事前学習モデルの開発と普及を通じて,ベトナム語理解・生成の高度化への貢献について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents our contributions towards advancing the state of
Vietnamese language understanding and generation through the development and
dissemination of open datasets and pre-trained models for Vietnamese
Retrieval-Augmented Generation (RAG) and Large Language Models (LLMs).
- Abstract(参考訳): 本稿では,ベトナムのレトリーバル強化世代(RAG)とLarge Language Models(LLM)のためのオープンデータセットと事前学習モデルの開発と普及を通じて,ベトナム語理解・生成の進展への貢献について述べる。
関連論文リスト
- ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models [0.0]
ViLLM-Evalは、基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートである。
ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2024-04-17T05:57:17Z) - LaVy: Vietnamese Multimodal Large Language Model [0.0]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。
ベトナムの大規模言語モデルに関連する作品が多数あり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。
本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。
論文 参考訳(メタデータ) (2024-04-11T17:09:28Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。
対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。
我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-03-20T10:14:13Z) - Formal Aspects of Language Modeling [74.16212987886013]
大規模言語モデルは最も一般的なNLP発明の1つとなっている。
これらのノートは、ETH Z "urich course on large language model" の理論的部分の伴奏である。
論文 参考訳(メタデータ) (2023-11-07T20:21:42Z) - Multi-dimensional data refining strategy for effective fine-tuning LLMs [2.67766280323297]
本稿では,ベトナム語の微調整モデルに適したクロールおよび精錬時に学んだ教訓について述べる。
本稿では、既存のデータセットを英語で活用し、生成AIツールの助けを借りて、カスタマイズされたデータクローリングスクリプトを開発する多次元戦略を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:50:43Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Diffusion Models for Non-autoregressive Text Generation: A Survey [94.4634088113513]
非自己回帰(NAR)テキスト生成は自然言語処理の分野で大きな注目を集めている。
近年、拡散モデルがNARテキスト生成に導入され、テキスト生成品質が向上した。
論文 参考訳(メタデータ) (2023-03-12T05:11:09Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。