論文の概要: FoodGPT: A Large Language Model in Food Testing Domain with Incremental
Pre-training and Knowledge Graph Prompt
- arxiv url: http://arxiv.org/abs/2308.10173v1
- Date: Sun, 20 Aug 2023 05:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:19:56.333457
- Title: FoodGPT: A Large Language Model in Food Testing Domain with Incremental
Pre-training and Knowledge Graph Prompt
- Title(参考訳): FoodGPT: インクリメンタル事前学習と知識グラフによる食品試験領域における大規模言語モデル
- Authors: Zhixiao Qi, Yijiong Yu, Meiqi Tu, Junyi Tan, Yongfeng Huang
- Abstract要約: 私たちは食品試験のための大きな言語モデルを構築します。
本稿では,段階的な事前学習において構造化知識とスキャンされた文書を取り扱う手法を提案する。
- 参考スコア(独自算出の注目度): 18.7168443402118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the construction of large language models in specific domains is
done by fine-tuning on a base model. Some models also incorporate knowledge
bases without the need for pre-training. This is because the base model already
contains domain-specific knowledge during the pre-training process. We build a
large language model for food testing. Unlike the above approach, a significant
amount of data in this domain exists in Scanning format for domain standard
documents. In addition, there is a large amount of untrained structured
knowledge. Therefore, we introduce an incremental pre-training step to inject
this knowledge into a large language model. In this paper, we propose a method
for handling structured knowledge and scanned documents in incremental
pre-training. To overcome the problem of machine hallucination, we constructe a
knowledge graph to serve as an external knowledge base for supporting retrieval
in the large language model. It is worth mentioning that this paper is a
technical report of our pre-release version, and we will report our specific
experimental data in future versions.
- Abstract(参考訳): 現在、特定のドメインにおける大きな言語モデルの構築は、ベースモデルの微調整によって行われる。
事前トレーニングを必要とせずに知識ベースを組み込むモデルもある。
これは、ベースモデルが事前トレーニングプロセス中に既にドメイン固有の知識を含んでいるためです。
食品テストのための大きな言語モデルを構築しています。
上記のアプローチとは異なり、このドメイン内のかなりの量のデータは、ドメイン標準ドキュメントのスキャニング形式に存在する。
さらに、訓練されていない構造化知識も大量に存在する。
そこで我々は,この知識を大規模言語モデルに注入するための段階的な事前学習手順を導入する。
本稿では,構造化知識とスキャンされた文書を漸進的事前学習で扱う手法を提案する。
機械幻覚の問題を克服するために,大規模言語モデルにおける検索支援のための外部知識ベースとして機能する知識グラフを構築した。
この論文は、プレリリースバージョンのテクニカルレポートであり、今後のバージョンの具体的な実験データを報告することに留意しておきたい。
関連論文リスト
- Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval [31.9252824152673]
我々は、因果言語モデルにおける入力シーケンスの途中の情報損失を実証する以前の研究に基づいて構築した。
エンコーダ・デコーダモデルの訓練段階における位置バイアスについて,言語モデル事前学習,コントラスト事前学習,コントラスト微調整などを検討した。
論文 参考訳(メタデータ) (2024-04-05T15:16:16Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Adapting Large Language Models to Domains via Reading Comprehension [86.24451681746676]
ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。
生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。
生コーパスを可読テキストに変換する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:17:52Z) - Large Language Models Struggle to Learn Long-Tail Knowledge [39.01608375863687]
本研究では,大規模言語モデルが記憶する知識と,Webから抽出した事前学習データセットの情報との関係について検討する。
特に、事実に基づく質問に答える言語モデルの能力は、事前学習中にその質問に関連する文書がいくつ見られたかに関係していることを示す。
論文 参考訳(メタデータ) (2022-11-15T18:49:27Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。