Fugu-MT 論文翻訳(概要): Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain

論文の概要: Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain

arxiv url: http://arxiv.org/abs/2404.08262v2
Date: Tue, 16 Apr 2024 02:24:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 11:52:13.126629
Title: Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain
Title（参考訳）: 言語とドメイン固有の大規模言語モデルの事前学習と更新:日本のビジネスドメインを事例として
Authors: Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki,
Abstract要約: 本研究では、非英語と高需要産業ドメインの組み合わせについて検討する。この種のモデルには、ビジネス領域の専門知識、強力な言語スキル、そしてその知識の定期的な更新が必要です。
参考スコア（独自算出の注目度）: 4.133477882188227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Several previous studies have considered language- and domain-specific large language models (LLMs) as separate topics. This study explores the combination of a non-English language and a high-demand industry domain, focusing on a Japanese business-specific LLM. This type of a model requires expertise in the business domain, strong language skills, and regular updates of its knowledge. We trained a 13-billion-parameter LLM from scratch using a new dataset of business texts and patents, and continually pretrained it with the latest business documents. Further we propose a new benchmark for Japanese business domain question answering (QA) and evaluate our models on it. The results show that our pretrained model improves QA accuracy without losing general knowledge, and that continual pretraining enhances adaptation to new information. Our pretrained model and business domain benchmark are publicly available.
Abstract（参考訳）: 言語とドメイン固有の大規模言語モデル (LLM) を別のトピックとして検討した以前の研究もある。本研究では、非英語と高需要産業ドメインの組み合わせについて、日本のビジネス特化LLMに着目して検討する。この種のモデルには、ビジネス領域の専門知識、強力な言語スキル、そしてその知識の定期的な更新が必要です。私たちは、ビジネステキストと特許の新しいデータセットを使用して、スクラッチから13億パラメータのLMをトレーニングし、最新のビジネスドキュメントで継続的に事前トレーニングしました。また,日本語ビジネス領域質問応答(QA)のための新しいベンチマークを提案し,そのモデルの評価を行った。その結果,事前学習モデルでは一般知識を失うことなくQA精度が向上し,継続事前学習により新たな情報への適応が促進されることがわかった。事前訓練されたモデルとビジネスドメインのベンチマークが公開されています。

関連論文リスト

Tracing Multilingual Knowledge Acquisition Dynamics in Domain Adaptation: A Case Study of English-Japanese Biomedical Adaptation [25.87847731982824]
多言語ドメイン適応(ML-DA)は、言語間の新しいドメイン知識を大規模言語モデル(LLM)に学習するために広く用いられている。本研究では,ML-DA における LLM の学習力学について検討する。 AdaXEvalは、トレーニングに使用される同じバイリンガルドメインコーパスから複数選択QAデータセットを構築する適応評価手法である。
論文参考訳（メタデータ） (2025-10-14T03:34:17Z)
RoBiologyDataChoiceQA: A Romanian Dataset for improving Biology understanding of Large Language Models [0.15293427903448023]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな可能性を証明している。本研究は,複数選択生物学の疑問に対するルーマニア語の新たなデータセットについて紹介する。
論文参考訳（メタデータ） (2025-09-30T05:41:50Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
CPRM: A LLM-based Continual Pre-training Framework for Relevance Modeling in Commercial Search [34.08551439233784]
CPRMは、大規模言語モデル(LLM)の継続的な事前訓練のために設計されたフレームワークである本フレームワークは3つのモジュールから構成される: 1) クエリとマルチフィールドアイテムを併用してドメイン知識を強化する,2) コンテキスト内事前学習を適用する,3) 関連するドメイン知識とバックグラウンド情報を生成する,という3つのモジュール。
論文参考訳（メタデータ） (2024-12-02T08:35:54Z)
On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
A Practical Guide to Fine-tuning Language Models with Limited Data [9.413178499853156]
事前訓練されたLarge Language Models (LLM) を採用することは、膨大なデータ要件にもかかわらず、自然言語処理(NLP)における事実上の標準となっている。限られたデータを用いたLLMの学習に焦点をあてた最近の研究の急増に触発された本研究では、データ不足の下流タスクにおけるモデル性能を最適化するための、近年のトランスファー学習アプローチについて調査する。
論文参考訳（メタデータ） (2024-11-14T15:55:37Z)
TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-28T19:32:18Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文参考訳（メタデータ） (2024-04-07T11:52:44Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
Investigating Continual Pretraining in Large Language Models: Insights and Implications [9.591223887442704]
本稿では,大規模言語モデル(LLM)における継続学習の進化領域について考察する。我々の主な重点は、LLMに様々なドメインからの新たな情報を統合する能力を持たせるために設計された、連続的なドメイン適応型事前訓練である。モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
論文参考訳（メタデータ） (2024-02-27T10:47:24Z)
Cross-lingual Editing in Multilingual Language Models [1.3062731746155414]
本稿では,言語間モデル編集(textbfXME)パラダイムを紹介し,事実を一つの言語で編集し,その後の更新伝搬を他の言語で観察する。その結果,言語が2つの異なるスクリプトファミリーに属している場合を中心に,XME設定下での最先端のMETの性能制限が顕著に示された。
論文参考訳（メタデータ） (2024-01-19T06:54:39Z)
Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文参考訳（メタデータ） (2023-12-29T14:25:22Z)
A Self-enhancement Approach for Domain-specific Chatbot Training via Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文参考訳（メタデータ） (2023-11-17T16:09:10Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。