論文の概要: Juru: Legal Brazilian Large Language Model from Reputable Sources
- arxiv url: http://arxiv.org/abs/2403.18140v2
- Date: Mon, 28 Jul 2025 02:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.17426
- Title: Juru: Legal Brazilian Large Language Model from Reputable Sources
- Title(参考訳): Juru: ブラジルの法的な大規模言語モデル
- Authors: Roseval Malaquias Junior, Ramon Pires, Roseli Romero, Rodrigo Nogueira,
- Abstract要約: ドメインの特殊化と高品質なデータによる事前訓練という2つの戦略がこの問題に対処するために現れている。
我々のモデルであるJuruは、法的なベンチマークのパフォーマンスを向上させることにより、ドメインの特殊化の利点を実証する。
本研究は,事前学習データ選択が大規模言語モデルの性能向上に寄与することを示す科学的根拠の増大に寄与する。
- 参考スコア(独自算出の注目度): 9.837135712999471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high compute cost associated with pretraining large language models limits their research. Two strategies have emerged to address this issue: domain specialization and pretraining with high-quality data. To explore these strategies, we specialized the Mistral-7B model with 1.9 billion unique tokens from reputable Brazilian legal sources and conducted few-shot evaluations on legal and general knowledge test suites. Our model, Juru, demonstrates the benefits of domain specialization by achieving improved performance on legal benchmarks, even with a reduced amount of pretraining data. However, this domain specialization through continued pretraining comes at the cost of increased forgetting in unrelated domains, as evidenced by performance degradation on general knowledge test suites in both Portuguese and English. This study contributes to the growing body of scientific evidence showing that pretraining data selection may enhance the performance of large language models, enabling the exploration of these models at a lower cost. Juru is publicly available at https://huggingface.co/roseval/Juru-7B .
- Abstract(参考訳): 大規模言語モデルの事前学習に伴う高い計算コストは研究を制限している。
ドメインの特殊化と高品質なデータによる事前訓練という2つの戦略がこの問題に対処するために現れている。
これらの戦略を探求するため、ブラジルの信頼できる法的資料から190億のユニークなトークンを持つMistral-7Bモデルを抽出し、法的なおよび一般的な知識テストスイートに関する数ショットの評価を行った。
我々のモデルであるJuruは、事前学習データが少ない場合でも、法的なベンチマークの性能を向上させることで、ドメインの特殊化の利点を実証する。
しかし、このドメインの専門化は、ポルトガル語と英語の両方の一般的な知識テストスイートのパフォーマンス低下によって証明されるように、無関係なドメインを忘れることのコストがかかる。
本研究は,事前学習データ選択が大規模言語モデルの性能を高め,これらのモデルの低コストな探索を可能にすることを示す科学的根拠の増大に寄与する。
Juruはhttps://huggingface.co/roseval/Juru-7Bで公開されている。
関連論文リスト
- LegalScore: Development of a Benchmark for Evaluating AI Models in Legal Career Exams in Brazil [0.0]
この研究は、ブラジルで法的背景を必要とする、選択されたキャリア試験において、生成人工知能モデルがどのように機能するかを評価するための特別な指標であるLegalScoreを紹介する。
このインデックスは、プロプライエタリなモデルからオープンソースモデルまで、14種類の人工知能モデルのパフォーマンスを評価し、これらの試験に適用される客観的な疑問に答える。
論文 参考訳(メタデータ) (2025-01-17T19:38:53Z) - TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Open Generative Large Language Models for Galician [1.3049334790726996]
大規模言語モデル(LLM)は自然言語処理に変化をもたらした。
しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。
この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。
このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。
論文 参考訳(メタデータ) (2024-06-19T23:49:56Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain [4.133477882188227]
本稿では,日本のビジネスドメイン固有のLLMのトレーニングと評価から得られた知見について述べる。
事前訓練されたモデルとビジネスドメインのベンチマークは、さらなる研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-04-12T06:21:48Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Baichuan 2: Open Large-scale Language Models [51.34140526283222]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Cabrita: closing the gap for foreign languages [0.0]
特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、2つの重要な目的に役立ちます。
このコスト課題を克服する主な解決策は、利用可能なトレーニング済みモデルに依存することである。
本稿では,性能と効率的なトークン化問題に対処する手法であるCabritaを提案する。
論文 参考訳(メタデータ) (2023-08-23T02:49:35Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset [2.0924876102146714]
53,000以上の選択質問からなる新しいデータセットを提示し、引用されたケースの保持状況を特定する。
タスクがプリトレーニングコーパスと十分な類似性を示すと、ドメイン事前トレーニングが保証される可能性がある。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
論文 参考訳(メタデータ) (2021-04-18T00:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。