論文の概要: Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA
- arxiv url: http://arxiv.org/abs/2405.07101v1
- Date: Sat, 11 May 2024 22:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:18:14.099158
- Title: Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA
- Title(参考訳): ITA言語のための先進的な自然対話:LLamantino-3-ANITA
- Authors: Marco Polignano, Pierpaolo Basile, Giovanni Semeraro,
- Abstract要約: 本稿では,新しいメタLLaMA-3モデル,LLaMAntino-3-ANITA-8B-Inst-DPO-ITAに基づくLarge Language Model(LLM)を紹介する。
英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使用されている。
- 参考スコア(独自算出の注目度): 3.195234044113248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the pursuit of advancing natural language processing for the Italian language, we introduce a state-of-the-art Large Language Model (LLM) based on the novel Meta LLaMA-3 model: LLaMAntino-3-ANITA-8B-Inst-DPO-ITA. We fine-tuned the original 8B parameters instruction tuned model using the Supervised Fine-tuning (SFT) technique on the English and Italian language datasets in order to improve the original performance. Consequently, a Dynamic Preference Optimization (DPO) process has been used to align preferences, avoid dangerous and inappropriate answers, and limit biases and prejudices. Our model leverages the efficiency of QLoRA to fine-tune the model on a smaller portion of the original model weights and then adapt the model specifically for the Italian linguistic structure, achieving significant improvements in both performance and computational efficiency. Concurrently, DPO is employed to refine the model's output, ensuring that generated content aligns with quality answers. The synergy between SFT, QLoRA's parameter efficiency and DPO's user-centric optimization results in a robust LLM that excels in a variety of tasks, including but not limited to text completion, zero-shot classification, and contextual understanding. The model has been extensively evaluated over standard benchmarks for the Italian and English languages, showing outstanding results. The model is freely available over the HuggingFace hub and, examples of use can be found in our GitHub repository. https://huggingface.co/swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA
- Abstract(参考訳): イタリア語の自然言語処理を進めるために,メタLLaMA-3モデル(LLaMAntino-3-ANITA-8B-Inst-DPO-ITA)をベースとした,最先端の大規模言語モデル(LLM)を導入する。
そこで本研究では,英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
その結果、動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使われてきた。
我々のモデルはQLoRAの効率を活用して、元のモデル重みの小さな部分でモデルを微調整し、その後、イタリアの言語構造に特化してモデルを適応させ、性能と計算効率の両方で大幅に改善する。
同時に、DPOはモデルの出力を洗練するために使われ、生成されたコンテンツが品質の答えと一致することを保証します。
SFTとQLoRAのパラメータ効率とDPOのユーザ中心最適化の相乗効果は、テキスト補完、ゼロショット分類、文脈理解など、様々なタスクに制限されない、堅牢なLLMをもたらす。
このモデルは、イタリア語と英語の標準ベンチマークよりも広く評価されており、優れた結果を示している。
このモデルはHuggingFaceハブ上で自由に利用可能で、使用例はGitHubリポジトリで確認できます。
https://huggingface.co/swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Soft Preference Optimization: Aligning Language Models to Expert Distributions [40.84391304598521]
SPOは、Large Language Models (LLMs)のような生成モデルと人間の好みを整合させる手法である。
SPOは、選好損失をモデル全体の出力分布全体にわたる正規化項と統合する。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:48:55Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits
Siamese-BLOOM [2.9327503320877457]
意味的に意味のある単語の埋め込みを生成するために最適化された多言語大言語モデルである8ビットのSiamese-BLOOMを提案する。
文類似度分類のために,スケーラブルアダプタ(LoRA)と8ビットAdamでBLOOMを微調整する。
実験の結果,LACoS-BLOOMからの学習した埋め込みの質は,モデルパラメータの数とラベルなしトレーニングデータの量に比例することがわかった。
論文 参考訳(メタデータ) (2023-05-10T18:26:42Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。