論文の概要: MediaGPT : A Large Language Model For Chinese Media
- arxiv url: http://arxiv.org/abs/2307.10930v2
- Date: Wed, 26 Jul 2023 14:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:04:30.420307
- Title: MediaGPT : A Large Language Model For Chinese Media
- Title(参考訳): mediagpt : 中国語メディアのための大規模言語モデル
- Authors: Zhonghao Wang, Zijia Lu, Bo Jin, Haiying Deng
- Abstract要約: 大規模言語モデル(LLM)は、高品質なテキストを生成し、メディアドメインを含む大量のデータに基づいて予測を行う際、顕著な能力を示している。
本稿では,メディアドメイン固有のLCMの特長について,一般LSMと比較して検討する。
そこで本研究では,人的専門家による評価と強力なモデル評価を行うことにより,メディアGPTが中国におけるメディアドメインタスクにおける主流モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.78667095535552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in generating
high-quality text and making predictions based on large amounts of data,
including the media domain. However, in practical applications, the differences
between the media's use cases and the general-purpose applications of LLMs have
become increasingly apparent, especially Chinese. This paper examines the
unique characteristics of media-domain-specific LLMs compared to general LLMs,
designed a diverse set of task instruction types to cater the specific
requirements of the domain and constructed unique datasets that are tailored to
the media domain. Based on these, we proposed MediaGPT, a domain-specific LLM
for the Chinese media domain, training by domain-specific data and experts SFT
data. By performing human experts evaluation and strong model evaluation on a
validation set, this paper demonstrated that MediaGPT outperforms mainstream
models on various Chinese media domain tasks and verifies the importance of
domain data and domain-defined prompt types for building an effective
domain-specific LLM.
- Abstract(参考訳): 大規模言語モデル(llm)は、高品質なテキストの生成と、メディアドメインを含む大量のデータに基づく予測に優れた能力を示している。
しかし、実際的な応用では、メディアのユースケースとLLMの汎用的応用の違いが、特に中国語で顕著になっている。
本稿では,メディアドメイン固有のLCMの特徴を一般のLCMと比較し,各領域の要求を満たすために多様なタスク命令型を設計し,メディアドメインに適した独自のデータセットを構築した。
これらに基づいて,中国メディアドメインのためのドメイン固有llmであるmediagpt,ドメイン固有データによるトレーニング,専門家のsftデータを提案する。
そこで本研究では,人的専門家による評価と強力なモデル評価を行うことにより,メディアGPTが中国メディアドメインタスクの主流モデルよりも優れ,ドメインデータの重要性やドメイン定義のプロンプト型が有効ドメイン固有LLM構築に有効であることが実証された。
関連論文リスト
- On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
ドメイン固有の画像キャプチャーペアから多様な視覚的命令タスクを生成する視覚的命令合成器を開発した。
ドメイン固有のポストトレーニングにおけるタスクの多様性を高めるために、単段階トレーニングパイプラインを適用します。
バイオメディシンと食品の2つの領域で、異なるソースとスケールのMLLMの訓練後実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction [18.524017579108044]
CTR予測のためのMulti-domain Low-Rank Adaptive Network (MLoRA)を提案する。
実験により,MLoRA法は最先端のベースラインに比べて大幅に改善された。
MLoRAのコードは公開されています。
論文 参考訳(メタデータ) (2024-08-14T05:53:02Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。