論文の概要: MediaGPT : A Large Language Model Target Chinese Media
- arxiv url: http://arxiv.org/abs/2307.10930v1
- Date: Thu, 20 Jul 2023 14:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:28:59.432026
- Title: MediaGPT : A Large Language Model Target Chinese Media
- Title(参考訳): mediagpt : 中国語メディアを対象とした大規模言語モデル
- Authors: Zhonghao Wang
- Abstract要約: 本稿では,様々なメディアデータを用いた大規模言語モデルトレーニングであるMediaGPTを紹介し,中国メディアの実践的ニーズに対処する。
我々は、ドメインの特定の要件を満たすために、多様なタスク命令タイプを設計しました。
- 参考スコア(独自算出の注目度): 3.509981181461861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large language models (LLMs) has seen rapid progress in
recent years. One of the most widely used LLMs is the Generative Pre-trained
Transformer (GPT) series, which has been applied in various fields, including
the media domain. However, in practical applications, the differences between
the media's use cases and the general-purpose applications of LLMs have become
increasingly apparent, especially Chinese. As a result, there is a growing need
to develop LLM that are specifically tailored to the unique requirements of the
media domain. In this paper, we present MediaGPT, a large language model
training on variety of media data and addressing the practical needs of Chinese
media. We have designed a diverse set of task instruction types to cater to the
specific requirements of the domain. To further validate the effectiveness of
our proposed LLM, we have constructed unique datasets that are tailored to the
media domain and have also developed verification methods that are specifically
designed for generative-type tasks. By doing so, we aim to bridge the gap
between the general-purpose LLM and the requirements of the media domain, and
to pave the way for more effective and efficient use of LLM in this field. This
paper aims to explore the challenges and opportunities of developing LLM for
media applications and to propose potential solutions for addressing these
challenges.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は近年急速に進展している。
最も広く使われているLCMの1つは、メディアドメインを含む様々な分野に適用されているジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)シリーズである。
しかし、実際的な応用では、メディアのユースケースとLLMの汎用的応用の違いが、特に中国語で顕著になっている。
その結果、メディアドメインのユニークな要件に合わせて、LSMを開発する必要性が高まっている。
本稿では,多種多様なメディアデータを用いた大規模言語モデルであるMediaGPTを紹介し,中国メディアの実践的ニーズに対処する。
我々は、ドメインの特定の要件を満たすために、多様なタスク命令タイプを設計しました。
提案手法の有効性をさらに検証するため,メディア領域に適した独自のデータセットを構築し,生成型タスクに特化して設計された検証手法を開発した。
そこで我々は, LLM の汎用性とメディア領域の要件とのギャップを埋めること, この分野における LLM のより効率的かつ効率的な利用の道を開くことを目的としている。
本稿では,メディアアプリケーションのためのLLM開発における課題と機会を探究し,これらの課題に対処するための潜在的解決策を提案する。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction [18.524017579108044]
CTR予測のためのMulti-domain Low-Rank Adaptive Network (MLoRA)を提案する。
実験により,MLoRA法は最先端のベースラインに比べて大幅に改善された。
MLoRAのコードは公開されています。
論文 参考訳(メタデータ) (2024-08-14T05:53:02Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。