論文の概要: Fauno: The Italian Large Language Model that will leave you senza
parole!
- arxiv url: http://arxiv.org/abs/2306.14457v1
- Date: Mon, 26 Jun 2023 07:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:44:57.377251
- Title: Fauno: The Italian Large Language Model that will leave you senza
parole!
- Title(参考訳): fauno: イタリアの大型言語モデルは、あなたをsenza paroleに残します!
- Authors: Andrea Bacciu, Giovanni Trappolini, Andrea Santilli, Emanuele
Rodol\`a, Fabrizio Silvestri
- Abstract要約: 本稿では,Faunoについて述べる。Faunoは,最初の,かつ最大の,イタリアの対話型大言語モデル(LLM)である。
Faunoの目標は、イタリアのLLMの研究を民主化することであり、単一のGPUで微調整された会話ボットを得ることが可能であることを実証することです。
- 参考スコア(独自算出の注目度): 5.721675370871927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Fauno, the first and largest open-source Italian
conversational Large Language Model (LLM). Our goal with Fauno is to
democratize the study of LLMs in Italian, demonstrating that obtaining a
fine-tuned conversational bot with a single GPU is possible. In addition, we
release a collection of datasets for conversational AI in Italian. The datasets
on which we fine-tuned Fauno include various topics such as general question
answering, computer science, and medical questions. We release our code and
datasets on \url{https://github.com/RSTLess-research/Fauno-Italian-LLM}
- Abstract(参考訳): 本稿では,イタリア初のオープンソースの対話型大規模言語モデル(llm)であるfaunoについて述べる。
Faunoの目標は、イタリアのLLMの研究を民主化し、単一のGPUで微調整された会話ボットを得ることが可能であることを示すことです。
さらに、イタリア語で会話型AIのためのデータセットのコレクションもリリースしています。
faunoを微調整したデータセットには、一般的な質問応答、コンピュータサイエンス、医療質問など様々なトピックが含まれています。
コードとデータセットは \url{https://github.com/RSTLess-research/Fauno-Italian-LLM} で公開しています。
関連論文リスト
- Dolma: an Open Corpus of Three Trillion Tokens for Language Model
Pretraining Research [140.6355066137106]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。
本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。
Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。
我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。
我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文 参考訳(メタデータ) (2023-11-03T08:05:04Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence
Understanding [103.34092301324425]
大規模言語モデル(LLM)は、オープンドメインのNLPタスクに顕著な能力を示している。
本稿では、オープンドメインの自然言語理解に特化して強化された、バイリンガル(英語と中国語)のオープンソース自己回帰モデルSeqGPTを提案する。
論文 参考訳(メタデータ) (2023-08-21T07:31:19Z) - Camoscio: an Italian Instruction-tuned LLaMA [4.130267652748847]
カモシオ(イタリア語: Camoscio)は、イタリア語でユーザのプロンプトに従うように特別に調整された言語モデルである。
その結果、イタリアにおける様々な下流タスクにおけるゼロショットのパフォーマンスは、既存のモデルと良好に競合していることが示唆された。
論文 参考訳(メタデータ) (2023-07-31T07:31:48Z) - ITALIC: An Italian Intent Classification Dataset [16.970030804283745]
ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。
このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルで構成されている。
意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T13:36:24Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Text Normalization for Low-Resource Languages of Africa [1.5766133856827325]
本研究では,アフリカの低リソース言語群におけるテキスト正規化とデータセット品質の影響について検討する。
我々は、有限状態トランスデューサのためのPythonライブラリであるPyniniフレームワークで構築したテキスト正規化器と、アフリカ言語のための言語モデルのトレーニング実験について説明する。
論文 参考訳(メタデータ) (2021-03-29T18:00:26Z) - The Gutenberg Dialogue Dataset [1.90365714903665]
現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
論文 参考訳(メタデータ) (2020-04-27T12:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。