論文の概要: SLIM-RAFT: A Novel Fine-Tuning Approach to Improve Cross-Linguistic Performance for Mercosur Common Nomenclature
- arxiv url: http://arxiv.org/abs/2408.03936v1
- Date: Wed, 7 Aug 2024 17:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 12:35:07.544497
- Title: SLIM-RAFT: A Novel Fine-Tuning Approach to Improve Cross-Linguistic Performance for Mercosur Common Nomenclature
- Title(参考訳): SLIM-RAFT: Mercosur Common Nomenclature における言語横断性能向上のためのファインチューニング手法
- Authors: Vinícius Di Oliveira, Yuri Façanha Bezerra, Li Weigang, Pedro Carvalho Brom, Victor Rafael R. Celestino,
- Abstract要約: 本研究は,NCM アプリケーション処理を実装するための LLM ソースとして,ポルトガルの基本的な LLM である TeenyTineLLaMA を用いている。
SLIM-RAFT(SLIM-RAFT)と呼ばれる簡易型検索ファインチューニング(RAFT)技術がLLMのタスク固有微調整のために提案されている。
提案モデルでは,より小型のLDMを微調整する手法として,TeenyTineLLaMA や ChatGPT-4 より優れた効率性を示す。
- 参考スコア(独自算出の注目度): 2.038893829552158
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural language processing (NLP) has seen significant advancements with the advent of large language models (LLMs). However, substantial improvements are still needed for languages other than English, especially for specific domains like the applications of Mercosur Common Nomenclature (NCM), a Brazilian Harmonized System (HS). To address this gap, this study uses TeenyTineLLaMA, a foundational Portuguese LLM, as an LLM source to implement the NCM application processing. Additionally, a simplified Retrieval-Augmented Fine-Tuning (RAFT) technique, termed SLIM-RAFT, is proposed for task-specific fine-tuning of LLMs. This approach retains the chain-of-thought (CoT) methodology for prompt development in a more concise and streamlined manner, utilizing brief and focused documents for training. The proposed model demonstrates an efficient and cost-effective alternative for fine-tuning smaller LLMs, significantly outperforming TeenyTineLLaMA and ChatGPT-4 in the same task. Although the research focuses on NCM applications, the methodology can be easily adapted for HS applications worldwide.
- Abstract(参考訳): 自然言語処理(NLP)は、大規模言語モデル(LLM)の出現とともに、大きな進歩を遂げてきた。
しかし、英語以外の言語、特にブラジルの調和システム(HS)であるMercosur Common Nomenclature (NCM)の応用のような特定のドメインでは、依然として大幅な改善が必要である。
このギャップに対処するため,ポルトガルのLLMであるTeenyTineLLaMAをLCMソースとして使用し,NCMアプリケーション処理を実装した。
さらに, SLIM-RAFTと呼ばれる簡易型検索ファインチューニング(RAFT)技術が, LLMのタスク固有微調整のために提案されている。
このアプローチは、より簡潔で合理化された方法で開発を促進するためのチェーン・オブ・シント(CoT)方法論を維持し、トレーニングに簡潔で集中したドキュメントを活用する。
提案モデルでは,より小型のLDMを微調整する手法として,TeenyTineLLaMA や ChatGPT-4 より優れた効率性を示す。
この研究はNCMアプリケーションに焦点をあてているが、この方法論は世界中のHSアプリケーションに容易に適用できる。
関連論文リスト
- LLM4PR: Improving Post-Ranking in Search Engine with Large Language Models [9.566432486156335]
検索エンジンにおける後処理のための大規模言語モデル(LLM4PR)
検索エンジン(LLM4PR)におけるポストランキングのための大規模言語モデル(Large Language Models for Post-Ranking)という新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-11-02T08:36:16Z) - Improving In-Context Learning with Small Language Model Ensembles [2.3499129784547654]
In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。
本稿では,複数の微調整小言語モデル(SLM)の専門知識を活用することでICLを強化する新しいアプローチであるEnsemble SuperICLを提案する。
論文 参考訳(メタデータ) (2024-10-29T09:02:37Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - PRISMA-DFLLM: An Extension of PRISMA for Systematic Literature Reviews
using Domain-specific Finetuned Large Language Models [0.0]
本稿では,Large Language Models(LLMs)のパワーと,PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)の厳密な報告ガイドラインを組み合わせたAI対応方法論フレームワークを提案する。
厳密なSLRプロセスの結果として選択されたドメイン固有の学術論文にLCMを微調整することにより、提案するPRISMA-DFLLMレポートガイドラインは、より効率、再利用性、拡張性を達成する可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-15T02:52:50Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。