論文の概要: LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian
Language
- arxiv url: http://arxiv.org/abs/2312.09993v1
- Date: Fri, 15 Dec 2023 18:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 14:46:12.254855
- Title: LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian
Language
- Title(参考訳): LLaMAntino: LLaMA 2 イタリア語における効果的なテキスト生成モデル
- Authors: Pierpaolo Basile, Elio Musacchio, Marco Polignano, Lucia Siciliani,
Giuseppe Fiameni, Giovanni Semeraro
- Abstract要約: LLaMA(Large Language Model Meta AI)ファミリーは、自然言語処理の分野での新しい進歩を表現している。
本研究は, イタリア語LLMの新しいLLaMAファミリーを導入することで, イタリア語の言語適応戦略に寄与する。
- 参考スコア(独自算出の注目度): 7.214355350362308
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models represent state-of-the-art linguistic models designed
to equip computers with the ability to comprehend natural language. With its
exceptional capacity to capture complex contextual relationships, the LLaMA
(Large Language Model Meta AI) family represents a novel advancement in the
field of natural language processing by releasing foundational models designed
to improve the natural language understanding abilities of the transformer
architecture thanks to their large amount of trainable parameters (7, 13, and
70 billion parameters). In many natural language understanding tasks, these
models obtain the same performances as private company models such as OpenAI
Chat-GPT with the advantage to make publicly available weights and code for
research and commercial uses. In this work, we investigate the possibility of
Language Adaptation for LLaMA models, explicitly focusing on addressing the
challenge of Italian Language coverage. Adopting an open science approach, we
explore various tuning approaches to ensure a high-quality text generated in
Italian suitable for common tasks in this underrepresented language in the
original models' datasets. We aim to release effective text generation models
with strong linguistic properties for many tasks that seem challenging using
multilingual or general-purpose LLMs. By leveraging an open science philosophy,
this study contributes to Language Adaptation strategies for the Italian
language by introducing the novel LLaMAntino family of Italian LLMs.
- Abstract(参考訳): 大きな言語モデルは、コンピュータに自然言語を理解する能力を持たせるために設計された最先端の言語モデルを表している。
llama(large language model meta ai)ファミリーは、複雑な文脈関係を捉える能力があり、大量のトレーニング可能なパラメータ(7,13,700億のパラメータ)のおかげでトランスフォーマアーキテクチャの自然言語理解能力を改善するために設計された基礎モデルをリリースすることにより、自然言語処理の分野における新たな進歩を表している。
多くの自然言語理解タスクにおいて、これらのモデルはopenai chat-gptのようなプライベート企業モデルと同等の性能を獲得し、研究や商用利用のために公開可能な重みとコードを作成することができる。
本研究では,LLaMAモデルに対する言語適応の可能性について検討し,イタリア語カバレッジの課題に対処することに焦点を当てた。
オープンサイエンスのアプローチを採用することで、原モデルのデータセットにおいて、この未表現言語において、共通タスクに適したイタリア語で生成された高品質なテキストを確保するための様々なチューニング手法を検討する。
我々は,多言語あるいは汎用のLLMを用いて困難に思われる多くのタスクに対して,言語特性の強い効果的なテキスト生成モデルをリリースすることを目指している。
オープンサイエンスの哲学を活用することで,イタリアのLLMのLLaMAntinoファミリーを導入することで,イタリア語の言語適応戦略に寄与する。
関連論文リスト
- A Survey of Large Language Models for European Languages [4.328283741894074]
大規模言語モデル(LLM)は、多岐にわたる自然言語処理における高い性能のため、大きな注目を集めている。
LLaMA, PaLM, GPT, MoE など LLM ファミリーの概要を報告する。
大規模言語モデルの事前学習に使用される共通単言語および多言語データセットの包括的要約を提供する。
論文 参考訳(メタデータ) (2024-08-27T13:10:05Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。