論文の概要: TelcoLM: collecting data, adapting, and benchmarking language models for the telecommunication domain
- arxiv url: http://arxiv.org/abs/2412.15891v1
- Date: Fri, 20 Dec 2024 13:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:07.572917
- Title: TelcoLM: collecting data, adapting, and benchmarking language models for the telecommunication domain
- Title(参考訳): TelcoLM: 通信領域のためのデータ収集、適応、およびベンチマーク言語モデル
- Authors: Camille Barboule, Viet-Phi Huynh, Adrien Bufort, Yoan Chabot, Géraldine Damnati, Gwénolé Lecorvé,
- Abstract要約: テレコミュニケーション(telco)は、多くの語彙的、意味的、概念的特異性のために特に困難なドメインである。
本稿では,Large Language Models をtelco ドメインに適応させる方法について検討する。
- 参考スコア(独自算出の注目度): 1.1457130176786257
- License:
- Abstract: Despite outstanding processes in many tasks, Large Language Models (LLMs) still lack accuracy when dealing with highly technical domains. Especially, telecommunications (telco) is a particularly challenging domain due the large amount of lexical, semantic and conceptual peculiarities. Yet, this domain holds many valuable use cases, directly linked to industrial needs. Hence, this paper studies how LLMs can be adapted to the telco domain. It reports our effort to (i) collect a massive corpus of domain-specific data (800M tokens, 80K instructions), (ii) perform adaptation using various methodologies, and (iii) benchmark them against larger generalist models in downstream tasks that require extensive knowledge of telecommunications. Our experiments on Llama-2-7b show that domain-adapted models can challenge the large generalist models. They also suggest that adaptation can be restricted to a unique instruction-tuning step, dicarding the need for any fine-tuning on raw texts beforehand.
- Abstract(参考訳): 多くのタスクにおいて際立ったプロセスにもかかわらず、Large Language Models (LLM) は高い技術的ドメインを扱う際には正確性に欠ける。
特に、通信(telco)は、語彙的、意味的、概念的な特質の多さのため、特に困難な領域である。
しかし、このドメインには多くの価値あるユースケースがあり、産業的ニーズに直接関連している。
そこで本稿では,LLM がtelco ドメインに適応する方法について検討する。
それは我々の努力を報告します
(i)ドメイン固有のデータの膨大なコーパス(800万トークン、80万命令)を収集する。
(二)様々な方法による適応を行い、
第三に、遠隔通信に関する広範な知識を必要とする下流タスクにおいて、より大規模なジェネラリストモデルに対して、それらをベンチマークする。
Llama-2-7bの実験により、ドメイン適応モデルが大規模一般モデルに挑戦できることが示されている。
彼らはまた、適応は独特な命令チューニングステップに制限され、前もって生のテキストを微調整する必要がなくなることを示唆している。
関連論文リスト
- TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Tele-LLMs: A Series of Specialized Large Language Models for Telecommunications [20.36003316123051]
我々は,通信に適した1Bパラメータから8Bパラメータまで,最初の言語モデルであるTele-LLMsを開発し,オープンソース化した。
評価の結果,これらのモデルはTele-Evalの汎用モデルよりも優れており,これまでに獲得した能力を維持していることがわかった。
論文 参考訳(メタデータ) (2024-09-09T03:58:51Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Fine-tuning Large Enterprise Language Models via Ontological Reasoning [5.12835891233968]
大きな言語モデル(LLM)はタスク固有のトレーニングデータのおかげで、さまざまな目標に適応するためのテクニックとして微調整を利用する。
LLMファインチューニングのためのタスクとドメイン固有のコーパスを構築するために、存在論的推論の力を利用する新しいニューロシンボリックアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-19T06:48:45Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Learning causal representations for robust domain adaptation [31.261956776418618]
多くの現実世界のアプリケーションでは、ターゲットのドメインデータが常に利用できるとは限らない。
本稿では,学習段階において対象ドメインデータが利用できない場合について検討する。
本稿では,深層オートエンコーダと因果構造学習を統一モデルに統合したCausal AutoEncoder (CAE)を提案する。
論文 参考訳(メタデータ) (2020-11-12T11:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。