論文の概要: Juru: Legal Brazilian Large Language Model from Reputable Sources
- arxiv url: http://arxiv.org/abs/2403.18140v1
- Date: Tue, 26 Mar 2024 22:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:55:29.783814
- Title: Juru: Legal Brazilian Large Language Model from Reputable Sources
- Title(参考訳): Juru: ブラジルの法的な大規模言語モデル
- Authors: Roseval Malaquias Junior, Ramon Pires, Roseli Romero, Rodrigo Nogueira,
- Abstract要約: ドメインの特殊化と高品質なデータによる事前訓練という2つの戦略がこの問題に対処するために現れている。
我々のモデルであるJuruは、事前学習データの少ない量でドメイン特殊化の利点を実証する。
本研究は,事前学習データ選択が大規模言語モデルの性能向上に寄与することを示す科学的根拠の増大に寄与する。
- 参考スコア(独自算出の注目度): 9.837135712999471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high computational cost associated with pretraining large language models limits their research. Two strategies have emerged to address this issue: domain specialization and pretraining with high-quality data. To explore these strategies, we specialized the Sabi\'a-2 Small model with 1.9 billion unique tokens from reputable Brazilian legal sources and conducted few-shot evaluations on legal and general knowledge exams. Our model, Juru, demonstrates the benefits of domain specialization with a reduced amount of pretraining data. However, this specialization comes at the expense of degrading performance in other knowledge areas within the same language. This study contributes to the growing body of scientific evidence showing that pretraining data selection may enhance the performance of large language models, enabling the exploration of these models at a lower cost.
- Abstract(参考訳): 大規模言語モデルの事前学習に伴う高い計算コストは研究を制限している。
ドメインの特殊化と高品質なデータによる事前訓練という2つの戦略がこの問題に対処するために現れている。
これらの戦略を探求するため、ブラジルの信頼できる法的資料から19億のユニークなトークンを持つSabi\'a-2 Smallモデルを選定し、法学および一般知識試験に関する数点の評価を行った。
我々のモデルであるJuruは、事前学習データの少ない量でドメイン特殊化の利点を実証する。
しかし、この専門化は、同じ言語の他の知識領域のパフォーマンス低下を犠牲にしている。
本研究は,事前学習データ選択が大規模言語モデルの性能を高め,これらのモデルの低コストな探索を可能にすることを示す科学的根拠の増大に寄与する。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain [4.133477882188227]
本研究では、非英語と高需要産業ドメインの組み合わせについて検討する。
この種のモデルには、ビジネス領域の専門知識、強力な言語スキル、そしてその知識の定期的な更新が必要です。
論文 参考訳(メタデータ) (2024-04-12T06:21:48Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Cabrita: closing the gap for foreign languages [0.0]
特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、2つの重要な目的に役立ちます。
このコスト課題を克服する主な解決策は、利用可能なトレーニング済みモデルに依存することである。
本稿では,性能と効率的なトークン化問題に対処する手法であるCabritaを提案する。
論文 参考訳(メタデータ) (2023-08-23T02:49:35Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。