論文の概要: FarsInstruct: Empowering Large Language Models for Persian Instruction Understanding
- arxiv url: http://arxiv.org/abs/2407.11186v1
- Date: Mon, 15 Jul 2024 19:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:31:15.408605
- Title: FarsInstruct: Empowering Large Language Models for Persian Instruction Understanding
- Title(参考訳): FarsInstruct:ペルシャ語指導理解のための大規模言語モデル
- Authors: Hojjat Mokhtarabadi, Ziba Zamani, Abbas Maazallahi, Hossein Manshaei,
- Abstract要約: この研究は、Co-CoLAフレームワークによるトレーニングとFarsInstructデータセットの有効性を示す。
現在の執筆時点で、FarsInstructは21の異なるデータセットに200以上のテンプレートで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned large language models, such as T0, have demonstrated remarkable capabilities in following instructions across various domains. However, their proficiency remains notably deficient in many low-resource languages. To address this challenge, we introduce FarsInstruct: a comprehensive instruction dataset designed to enhance the instruction-following ability of large language models specifically for the Persian language, a significant yet underrepresented language globally. FarsInstruct encompasses a wide range of task types and datasets, each containing a mix of straightforward to complex manual written instructions, as well as translations from Public Pool of Prompts, ensuring a rich linguistic and cultural representation. Furthermore, we introduce Co-CoLA, a framework designed to enhance the multi-task adaptability of LoRA-tuned models. Through extensive experimental analyses, our study showcases the effectiveness of FarsInstruct dataset coupled with training by Co-CoLA framework, in improving the performance of large language models within the Persian context. As of the current writing, FarsInstruct comprises more than 200 templates across 21 distinct datasets, and we intend to update it consistently, thus augmenting its applicability.
- Abstract(参考訳): T0のような命令調整型大規模言語モデルは、様々な領域にまたがる命令に従う際、顕著な能力を示している。
しかし、その習熟度は多くの低リソース言語で顕著に不足している。
この課題に対処するために、我々は、ペルシャ語に特化した大規模言語モデルの命令追従能力を高めるために設計された包括的な命令データセットであるFarsInstructを紹介した。
FarsInstructには幅広いタスクタイプとデータセットが含まれており、それぞれが単純で複雑な手書きの命令と、Promptsの公開プールからの翻訳を混在させ、豊かな言語的・文化的表現を保証する。
さらに,LoRA設計モデルのマルチタスク適応性向上を目的としたフレームワークであるCo-CoLAを紹介する。
本研究では,Co-CoLAフレームワークによるトレーニングと組み合わせたFarsInstructデータセットの有効性について検討し,ペルシャの文脈における大規模言語モデルの性能向上について検討した。
現在の執筆時点で、FarsInstructは21の異なるデータセットに200以上のテンプレートで構成されています。
関連論文リスト
- LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。
提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文 参考訳(メタデータ) (2024-12-31T08:32:15Z) - Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation [36.92567530333872]
我々は,大言語モデル(LLM)に新しい言語,すなわちペルシア語を追加することを研究する。
我々は単言語ペルシャ語のデータの事前学習を含む多段階的アプローチを採用する。
生成タスクと分類タスクにおいて,各段階でのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-17T23:18:06Z) - MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models [79.0546136194314]
マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。
提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
論文 参考訳(メタデータ) (2024-11-15T20:09:59Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for
Language Models [153.14575887549088]
GLAN(Generalized Instruction Tuning)は,Large Language Models(LLM)の汎用的かつスケーラブルなチューニング手法である。
GLANは、人間の知識と能力の事前分類を入力として利用し、あらゆる分野にわたる大規模な合成指導データを生成する。
サイラバスの全クラスセッションで詳述された、きめ細かい重要な概念により、私たちは、人間の知識とスキルの全範囲にわたって幅広い範囲をカバーする多様な命令を生成できる。
論文 参考訳(メタデータ) (2024-02-20T15:00:35Z) - TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and
Advanced Decoding Techniques [0.9831489366502302]
我々は,ペルシャの古典詩生成モデルを,事前学習のない特別なデータセット上でトランスフォーマーアーキテクチャを用いて訓練する。
生成された詩のコヒーレンスと意味性を高めるための新しい復号法を提案する。
トレーニング手法と提案手法の結果は,総合的な自動評価と人的評価によって評価される。
論文 参考訳(メタデータ) (2023-12-04T18:52:26Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。