論文の概要: MediaGPT : A Large Language Model Target Chinese Media
- arxiv url: http://arxiv.org/abs/2307.10930v1
- Date: Thu, 20 Jul 2023 14:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:28:59.432026
- Title: MediaGPT : A Large Language Model Target Chinese Media
- Title(参考訳): mediagpt : 中国語メディアを対象とした大規模言語モデル
- Authors: Zhonghao Wang
- Abstract要約: 本稿では,様々なメディアデータを用いた大規模言語モデルトレーニングであるMediaGPTを紹介し,中国メディアの実践的ニーズに対処する。
我々は、ドメインの特定の要件を満たすために、多様なタスク命令タイプを設計しました。
- 参考スコア(独自算出の注目度): 3.509981181461861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large language models (LLMs) has seen rapid progress in
recent years. One of the most widely used LLMs is the Generative Pre-trained
Transformer (GPT) series, which has been applied in various fields, including
the media domain. However, in practical applications, the differences between
the media's use cases and the general-purpose applications of LLMs have become
increasingly apparent, especially Chinese. As a result, there is a growing need
to develop LLM that are specifically tailored to the unique requirements of the
media domain. In this paper, we present MediaGPT, a large language model
training on variety of media data and addressing the practical needs of Chinese
media. We have designed a diverse set of task instruction types to cater to the
specific requirements of the domain. To further validate the effectiveness of
our proposed LLM, we have constructed unique datasets that are tailored to the
media domain and have also developed verification methods that are specifically
designed for generative-type tasks. By doing so, we aim to bridge the gap
between the general-purpose LLM and the requirements of the media domain, and
to pave the way for more effective and efficient use of LLM in this field. This
paper aims to explore the challenges and opportunities of developing LLM for
media applications and to propose potential solutions for addressing these
challenges.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は近年急速に進展している。
最も広く使われているLCMの1つは、メディアドメインを含む様々な分野に適用されているジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)シリーズである。
しかし、実際的な応用では、メディアのユースケースとLLMの汎用的応用の違いが、特に中国語で顕著になっている。
その結果、メディアドメインのユニークな要件に合わせて、LSMを開発する必要性が高まっている。
本稿では,多種多様なメディアデータを用いた大規模言語モデルであるMediaGPTを紹介し,中国メディアの実践的ニーズに対処する。
我々は、ドメインの特定の要件を満たすために、多様なタスク命令タイプを設計しました。
提案手法の有効性をさらに検証するため,メディア領域に適した独自のデータセットを構築し,生成型タスクに特化して設計された検証手法を開発した。
そこで我々は, LLM の汎用性とメディア領域の要件とのギャップを埋めること, この分野における LLM のより効率的かつ効率的な利用の道を開くことを目的としている。
本稿では,メディアアプリケーションのためのLLM開発における課題と機会を探究し,これらの課題に対処するための潜在的解決策を提案する。
関連論文リスト
- A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of
LLMs [51.17542331993448]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - ChipNeMo: Domain-Adapted LLMs for Chip Design [19.43613652552849]
ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の応用を探求することを目的としている。
ドメイン適応型トークン化、ドメイン適応型継続事前トレーニング、ドメイン固有命令とのモデルアライメント、ドメイン適応型検索モデルを採用する。
論文 参考訳(メタデータ) (2023-10-31T22:35:58Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。