論文の概要: Open foundation models for Azerbaijani language
- arxiv url: http://arxiv.org/abs/2407.02337v1
- Date: Tue, 2 Jul 2024 15:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:56:27.093739
- Title: Open foundation models for Azerbaijani language
- Title(参考訳): アゼルバイジャン語のためのオープン基盤モデル
- Authors: Jafar Isbarov, Kavsar Huseynova, Elvin Mammadov, Mammad Hajili,
- Abstract要約: 多言語大言語モデルはアゼルバイジャンにおける言語理解と生成システムの開発を可能にした。
プロダクショングレードのシステムのほとんどは、GPT-4のようなクラウドソリューションに依存している。
本稿では,アゼルバイジャンのオープンソース基盤モデルを推進しているいくつかの取り組みについて述べる。
- 参考スコア(独自算出の注目度): 0.018749305679160364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The emergence of multilingual large language models has enabled the development of language understanding and generation systems in Azerbaijani. However, most of the production-grade systems rely on cloud solutions, such as GPT-4. While there have been several attempts to develop open foundation models for Azerbaijani, these works have not found their way into common use due to a lack of systemic benchmarking. This paper encompasses several lines of work that promote open-source foundation models for Azerbaijani. We introduce (1) a large text corpus for Azerbaijani, (2) a family of encoder-only language models trained on this dataset, (3) labeled datasets for evaluating these models, and (4) extensive evaluation that covers all major open-source models with Azerbaijani support.
- Abstract(参考訳): 多言語大言語モデルの出現は、アゼルバイジャンにおける言語理解と生成システムの開発を可能にした。
しかしながら、プロダクショングレードのシステムのほとんどは、GPT-4のようなクラウドソリューションに依存している。
アゼルバイジャンのオープン・ファンデーション・モデルを開発する試みはいくつかあるが、これらの研究は体系的なベンチマークが欠如しているため、一般的には使われていない。
本稿では,アゼルバイジャンのオープンソース基盤モデルを推進しているいくつかの取り組みについて述べる。
本稿では,(1)アゼルバイジャン語のための大規模なテキストコーパス,(2)このデータセットで訓練されたエンコーダのみの言語モデル群,(3)これらのモデルを評価するためのラベル付きデータセット,(4)アゼルバイジャン語をサポートする主要なオープンソースモデルすべてをカバーする広範な評価について紹介する。
関連論文リスト
- Formal Aspects of Language Modeling [74.16212987886013]
大規模言語モデルは最も一般的なNLP発明の1つとなっている。
これらのノートは、ETH Z "urich course on large language model" の理論的部分の伴奏である。
論文 参考訳(メタデータ) (2023-11-07T20:21:42Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Lessons learned from the evaluation of Spanish Language Models [27.653133576469276]
本稿では,スペイン語の言語モデルと,以下の結果との比較を行う。
我々は、その根底にある要因を理解するために、さらなる研究の必要性を論じる。
スペイン語のための言語技術開発における最近の活動は歓迎されるが、我々の結果は、言語モデルの構築は依然としてオープンでリソースの多い問題であることを示している。
論文 参考訳(メタデータ) (2022-12-16T10:33:38Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - UzBERT: pretraining a BERT model for Uzbek [0.0]
BERTアーキテクチャに基づいた事前訓練されたウズベク語モデルであるUzBERTを紹介する。
私たちはこのモデルをMITオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2021-08-22T18:28:22Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。