論文の概要: Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced
Chat Corpus Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2311.15698v1
- Date: Mon, 27 Nov 2023 10:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:14:44.455834
- Title: Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced
Chat Corpus Generation and Evaluation
- Title(参考訳): Cerbero-7B: チャットコーパスの生成と評価による言語特化LDMの前進
- Authors: Federico A. Galatolo, Mario G.C.A. Cimino
- Abstract要約: 本研究では,自己チャット機構を用いて,高品質で言語固有のチャットコーパスを生成する手法を提案する。
イタリア語のチャットコーパスと,英語のChatGPT自己チャットデータに基づくFaunoコーパスを生成する。
これらのコーパスを微調整したイタリアのLLMでは、言語理解と質問応答能力が大幅に向上している。
- 参考スコア(独自算出の注目度): 0.5967382410041416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces a novel approach for generating high-quality,
language-specific chat corpora using a self-chat mechanism. We combine a
generator LLM for creating new samples and an embedder LLM to ensure diversity.
A new Masked Language Modelling (MLM) model-based quality assessment metric is
proposed for evaluating and filtering the corpora. Utilizing the llama2-70b as
the generator and a multilingual sentence transformer as embedder, we generate
an Italian chat corpus and refine the Fauno corpus, which is based on
translated English ChatGPT self-chat data. The refinement uses structural
assertions and Natural Language Processing techniques. Both corpora undergo a
comprehensive quality evaluation using the proposed MLM model-based quality
metric. The Italian LLM fine-tuned with these corpora demonstrates
significantly enhanced language comprehension and question-answering skills.
The resultant model, cerbero-7b, establishes a new state-of-the-art for Italian
LLMs. This approach marks a substantial advancement in the development of
language-specific LLMs, with a special emphasis on augmenting corpora for
underrepresented languages like Italian.
- Abstract(参考訳): 本研究は,自己チャット機構を用いて高品質な言語特化チャットコーパスを生成するための新しい手法を提案する。
新しいサンプルを作成するジェネレータLSMと組込みLDMを組み合わせて多様性を確保する。
コーパスの評価とフィルタリングのために,新たなマスク型言語モデリング(mlm)モデルに基づく品質評価指標を提案する。
ラマ2-70bをジェネレータとし、多言語文変換器を埋め込み器として使用し、イタリア語チャットコーパスを生成し、英訳ChatGPTセルフチャットデータに基づくファウノコーパスを洗練する。
この改良は構造的なアサーションと自然言語処理技術を使用する。
両コーパスはMLMモデルに基づく品質指標を用いて総合的な品質評価を行う。
これらのコーパスを微調整したイタリアのLLMでは、言語理解と質問応答能力が大幅に向上している。
結果、セルベロ7bはイタリアのLLMの新たな最先端技術を確立した。
このアプローチは、言語固有のLLMの開発において、特にイタリア語のような表現不足言語に対するコーパスの拡大に重点を置いている。
関連論文リスト
- The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs [13.558778781305998]
大規模言語モデル (LLM) は主に英語を基本言語として設計されている。
多言語である少数の人々でさえ、強い英語中心の偏見を示す傾向がある。
本稿では,多言語出力の語彙的および構文的自然性を評価するための新しい自動コーパスレベル指標を提案する。
論文 参考訳(メタデータ) (2024-10-21T12:34:17Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities [2.047424180164312]
Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
我々はDictaLM2.0とDictaLM2.0-Instructを紹介した。
論文 参考訳(メタデータ) (2024-07-09T17:51:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian
Language [7.214355350362308]
LLaMA(Large Language Model Meta AI)ファミリーは、自然言語処理の分野での新しい進歩を表現している。
本研究は, イタリア語LLMの新しいLLaMAファミリーを導入することで, イタリア語の言語適応戦略に寄与する。
論文 参考訳(メタデータ) (2023-12-15T18:06:22Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。