論文の概要: MediaGPT : A Large Language Model For Chinese Media
- arxiv url: http://arxiv.org/abs/2307.10930v2
- Date: Wed, 26 Jul 2023 14:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:04:30.420307
- Title: MediaGPT : A Large Language Model For Chinese Media
- Title(参考訳): mediagpt : 中国語メディアのための大規模言語モデル
- Authors: Zhonghao Wang, Zijia Lu, Bo Jin, Haiying Deng
- Abstract要約: 大規模言語モデル(LLM)は、高品質なテキストを生成し、メディアドメインを含む大量のデータに基づいて予測を行う際、顕著な能力を示している。
本稿では,メディアドメイン固有のLCMの特長について,一般LSMと比較して検討する。
そこで本研究では,人的専門家による評価と強力なモデル評価を行うことにより,メディアGPTが中国におけるメディアドメインタスクにおける主流モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.78667095535552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in generating
high-quality text and making predictions based on large amounts of data,
including the media domain. However, in practical applications, the differences
between the media's use cases and the general-purpose applications of LLMs have
become increasingly apparent, especially Chinese. This paper examines the
unique characteristics of media-domain-specific LLMs compared to general LLMs,
designed a diverse set of task instruction types to cater the specific
requirements of the domain and constructed unique datasets that are tailored to
the media domain. Based on these, we proposed MediaGPT, a domain-specific LLM
for the Chinese media domain, training by domain-specific data and experts SFT
data. By performing human experts evaluation and strong model evaluation on a
validation set, this paper demonstrated that MediaGPT outperforms mainstream
models on various Chinese media domain tasks and verifies the importance of
domain data and domain-defined prompt types for building an effective
domain-specific LLM.
- Abstract(参考訳): 大規模言語モデル(llm)は、高品質なテキストの生成と、メディアドメインを含む大量のデータに基づく予測に優れた能力を示している。
しかし、実際的な応用では、メディアのユースケースとLLMの汎用的応用の違いが、特に中国語で顕著になっている。
本稿では,メディアドメイン固有のLCMの特徴を一般のLCMと比較し,各領域の要求を満たすために多様なタスク命令型を設計し,メディアドメインに適した独自のデータセットを構築した。
これらに基づいて,中国メディアドメインのためのドメイン固有llmであるmediagpt,ドメイン固有データによるトレーニング,専門家のsftデータを提案する。
そこで本研究では,人的専門家による評価と強力なモデル評価を行うことにより,メディアGPTが中国メディアドメインタスクの主流モデルよりも優れ,ドメインデータの重要性やドメイン定義のプロンプト型が有効ドメイン固有LLM構築に有効であることが実証された。
関連論文リスト
- A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of
LLMs [51.17542331993448]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - ChipNeMo: Domain-Adapted LLMs for Chip Design [19.43613652552849]
ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の応用を探求することを目的としている。
ドメイン適応型トークン化、ドメイン適応型継続事前トレーニング、ドメイン固有命令とのモデルアライメント、ドメイン適応型検索モデルを採用する。
論文 参考訳(メタデータ) (2023-10-31T22:35:58Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。