論文の概要: Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge
- arxiv url: http://arxiv.org/abs/2407.16724v1
- Date: Tue, 23 Jul 2024 12:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:54:04.464647
- Title: Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge
- Title(参考訳): 人間の学生のようにLLMを教育する:ドメイン知識の構造を意識した注入
- Authors: Kai Liu, Ze Chen, Zhihang Fu, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye,
- Abstract要約: StructTuningは、大規模言語モデル(LLM)をドメインスペシャリストに変換する方法論である。
トレーニングコーパスの要件をわずか0.3%まで大幅に最小化する。
本手法はMMedBench上での最先端のMMedLM2による改善の50%に適合する。
- 参考スコア(独自算出の注目度): 37.089378357827826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a pioneering methodology, termed StructTuning, to efficiently transform foundation Large Language Models (LLMs) into domain specialists. It significantly minimizes the training corpus requirement to a mere 0.3% while achieving an impressive 50% of traditional knowledge injection performance. Our method is inspired by the educational processes for human students, particularly how structured domain knowledge from textbooks is absorbed and then applied to tackle real-world challenges through specific exercises. Based on this, we propose a novel two-stage knowledge injection strategy: Structure-aware Continual Pre-Training (SCPT) and Structure-aware Supervised Fine-Tuning (SSFT). In the SCPT phase, we organize the training data into an auto-generated taxonomy of domain knowledge, enabling LLMs to effectively memorize textual segments linked to specific expertise within the taxonomy's architecture. Subsequently, in the SSFT phase, we explicitly prompt models to reveal the underlying knowledge structure in their outputs, leveraging this structured domain insight to address practical problems adeptly. Our ultimate method has undergone extensive evaluations across model architectures and scales, using closed-book question-answering tasks on LongBench and MMedBench datasets. Remarkably, our method matches 50% of the improvement displayed by the state-of-the-art MMedLM2 on MMedBench, but with only 0.3% quantity of the training corpus. This breakthrough showcases the potential to scale up our StructTuning for stronger domain-specific LLMs. Code will be made public soon.
- Abstract(参考訳): 本稿では,基礎言語モデル(LLM)をドメインスペシャリストに効率的に変換する手法であるStructTuningを提案する。
従来の知識注入性能の50パーセントを達成しながら、トレーニングコーパスの要件をわずか0.3%まで大幅に最小化する。
本手法は,人学生の学習過程,特に教科書からの構造化ドメイン知識が吸収され,特定の演習を通じて現実の課題に取り組むために応用される方法に着想を得たものである。
そこで本研究では,SCPT(Structure-aware Continual Pre-Training)とSSFT(Structure-aware Supervised Fine-Tuning)という2段階の知識注入戦略を提案する。
SCPTフェーズでは、学習データをドメイン知識の自動生成分類に整理し、LLMが分類体系内の特定の専門知識に関連するテキストセグメントを効果的に記憶できるようにする。
その後、SSFTフェーズにおいて、我々はモデルに対して、その出力の基盤となる知識構造を明らかにするよう促し、この構造的領域の洞察を活用して、実用的な問題に積極的に対処する。
我々の究極の手法は、LongBenchデータセットとMMedBenchデータセットのクローズドブック質問応答タスクを用いて、モデルアーキテクチャとスケールにわたって広範囲に評価されてきた。
本手法は,MMedBench上での最先端MMedLM2による改善の50%に適合するが,トレーニングコーパスの0.3%に留まる。
このブレークスルーは、より強力なドメイン固有のLLMのためにStructTuningをスケールアップする可能性を示している。
コードはまもなく公開されます。
関連論文リスト
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling [39.14392943549792]
本稿では,階層型プロンプトチューニング(HPT)と呼ばれる新しい手法を提案し,構造化知識と従来の言語知識の同時モデリングを可能にする。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
全体意味論をモデル化する高レベルかつグローバルレベルのプロンプトを取り入れることで、提案された階層構造は、クロスレベルな相互リンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2024-08-27T06:50:28Z) - A Few-Shot Approach for Relation Extraction Domain Adaptation using Large Language Models [1.3927943269211591]
本稿では,大規模言語モデルの文脈内学習機能を活用してデータアノテーションを実行する実験を行う。
提案手法は,構造化プロンプトと最小限のエキスパートアノテーションを併用した数発の学習戦略を用いることで,科学的なKG生成モデルのドメイン適応を支援することができることを示す。
論文 参考訳(メタデータ) (2024-08-05T11:06:36Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。