論文の概要: Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA
- arxiv url: http://arxiv.org/abs/2405.07101v1
- Date: Sat, 11 May 2024 22:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:18:14.099158
- Title: Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA
- Title(参考訳): ITA言語のための先進的な自然対話:LLamantino-3-ANITA
- Authors: Marco Polignano, Pierpaolo Basile, Giovanni Semeraro,
- Abstract要約: 本稿では,新しいメタLLaMA-3モデル,LLaMAntino-3-ANITA-8B-Inst-DPO-ITAに基づくLarge Language Model(LLM)を紹介する。
英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使用されている。
- 参考スコア(独自算出の注目度): 3.195234044113248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the pursuit of advancing natural language processing for the Italian language, we introduce a state-of-the-art Large Language Model (LLM) based on the novel Meta LLaMA-3 model: LLaMAntino-3-ANITA-8B-Inst-DPO-ITA. We fine-tuned the original 8B parameters instruction tuned model using the Supervised Fine-tuning (SFT) technique on the English and Italian language datasets in order to improve the original performance. Consequently, a Dynamic Preference Optimization (DPO) process has been used to align preferences, avoid dangerous and inappropriate answers, and limit biases and prejudices. Our model leverages the efficiency of QLoRA to fine-tune the model on a smaller portion of the original model weights and then adapt the model specifically for the Italian linguistic structure, achieving significant improvements in both performance and computational efficiency. Concurrently, DPO is employed to refine the model's output, ensuring that generated content aligns with quality answers. The synergy between SFT, QLoRA's parameter efficiency and DPO's user-centric optimization results in a robust LLM that excels in a variety of tasks, including but not limited to text completion, zero-shot classification, and contextual understanding. The model has been extensively evaluated over standard benchmarks for the Italian and English languages, showing outstanding results. The model is freely available over the HuggingFace hub and, examples of use can be found in our GitHub repository. https://huggingface.co/swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA
- Abstract(参考訳): イタリア語の自然言語処理を進めるために,メタLLaMA-3モデル(LLaMAntino-3-ANITA-8B-Inst-DPO-ITA)をベースとした,最先端の大規模言語モデル(LLM)を導入する。
そこで本研究では,英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
その結果、動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使われてきた。
我々のモデルはQLoRAの効率を活用して、元のモデル重みの小さな部分でモデルを微調整し、その後、イタリアの言語構造に特化してモデルを適応させ、性能と計算効率の両方で大幅に改善する。
同時に、DPOはモデルの出力を洗練するために使われ、生成されたコンテンツが品質の答えと一致することを保証します。
SFTとQLoRAのパラメータ効率とDPOのユーザ中心最適化の相乗効果は、テキスト補完、ゼロショット分類、文脈理解など、様々なタスクに制限されない、堅牢なLLMをもたらす。
このモデルは、イタリア語と英語の標準ベンチマークよりも広く評価されており、優れた結果を示している。
このモデルはHuggingFaceハブ上で自由に利用可能で、使用例はGitHubリポジトリで確認できます。
https://huggingface.co/swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Soft Preference Optimization: Aligning Language Models to Expert Distributions [40.84391304598521]
SPOは、Large Language Models (LLMs)のような生成モデルと人間の好みを整合させる手法である。
SPOは、選好損失をモデル全体の出力分布全体にわたる正規化項と統合する。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:48:55Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits
Siamese-BLOOM [2.9327503320877457]
意味的に意味のある単語の埋め込みを生成するために最適化された多言語大言語モデルである8ビットのSiamese-BLOOMを提案する。
文類似度分類のために,スケーラブルアダプタ(LoRA)と8ビットAdamでBLOOMを微調整する。
実験の結果,LACoS-BLOOMからの学習した埋め込みの質は,モデルパラメータの数とラベルなしトレーニングデータの量に比例することがわかった。
論文 参考訳(メタデータ) (2023-05-10T18:26:42Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。