論文の概要: Adapting Large Language Models via Reading Comprehension
- arxiv url: http://arxiv.org/abs/2309.09530v3
- Date: Sun, 14 Jul 2024 15:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 04:58:50.867237
- Title: Adapting Large Language Models via Reading Comprehension
- Title(参考訳): 読解による大規模言語モデルへの適応
- Authors: Daixuan Cheng, Shaohan Huang, Furu Wei,
- Abstract要約: ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。
生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。
生コーパスを可読テキストに変換する簡単な方法を提案する。
- 参考スコア(独自算出の注目度): 86.24451681746676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore how continued pre-training on domain-specific corpora influences large language models, revealing that training on the raw corpora endows the model with domain knowledge, but drastically hurts its prompting ability for question answering. Taken inspiration from human learning via reading comprehension--practice after reading improves the ability to answer questions based on the learned knowledge--we propose a simple method for transforming raw corpora into reading comprehension texts. Each raw text is enriched with a series of tasks related to its content. Our method, highly scalable and applicable to any pre-training corpora, consistently enhances performance across various tasks in three different domains: biomedicine, finance, and law. Notably, our 7B language model achieves competitive performance with domain-specific models of much larger scales, such as BloombergGPT-50B. Furthermore, we demonstrate that domain-specific reading comprehension texts can improve the model's performance even on general benchmarks, showing the potential to develop a general model across even more domains. Our model, code, and data are available at https://github.com/microsoft/LMOps.
- Abstract(参考訳): ドメイン固有コーパスの事前学習が大規模言語モデルにどのように影響するかを探索し、生コーパスのトレーニングがドメイン知識を生かしたモデルを実現するが、質問応答の促進能力を大幅に損なうことを明らかにした。
読み書きによる人間の学習からインスピレーションを得る-学習知識に基づいて質問に答える能力を向上させる-本研究では、生コーパスを読解テキストに変換する簡単な方法を提案する。
各原文は、その内容に関連する一連のタスクで濃縮される。
本手法は,任意の事前学習コーパスに適用可能であり,バイオメディシン,ファイナンス,法則の3分野において,様々なタスクにまたがるパフォーマンスを継続的に向上させる。
特に、我々の7B言語モデルは、BloombergGPT-50Bのような非常に大きなスケールのドメイン固有モデルと競合する性能を実現しています。
さらに、一般ベンチマークにおいても、ドメイン固有の読解テキストがモデルの性能を向上させることを実証し、さらに多くのドメインにまたがる汎用モデルを開発する可能性を示す。
私たちのモデル、コード、データはhttps://github.com/microsoft/LMOps.comで公開されています。
関連論文リスト
- Improving Domain Adaptation through Extended-Text Reading Comprehension [108.24709810480654]
最近の研究は、適応型パターンによってフォーマットされた理解データを読み取るモデルが、ドメイン固有のタスクのパフォーマンスを大幅に改善できることを実証している。
しかし、これらのパターンはドメイン固有の知識を用いて生のコーパスを解析することができない。
AdaptLLMと比較して、ドメイン固有のタスクで5%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-01-14T13:11:31Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Cross-Domain Generalization and Knowledge Transfer in Transformers
Trained on Legal Data [0.0]
異なる型システムで注釈付けされたデータセット間で知識を伝達する事前学習言語モデルの解析を行う。
文がケース決定で果たす修辞的役割の予測は、AI & Lawにおいて重要かつしばしば研究される課題である。
論文 参考訳(メタデータ) (2021-12-15T04:23:14Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。