論文の概要: Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge
- arxiv url: http://arxiv.org/abs/2407.16724v1
- Date: Tue, 23 Jul 2024 12:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:54:04.464647
- Title: Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge
- Title(参考訳): 人間の学生のようにLLMを教育する:ドメイン知識の構造を意識した注入
- Authors: Kai Liu, Ze Chen, Zhihang Fu, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye,
- Abstract要約: StructTuningは、大規模言語モデル(LLM)をドメインスペシャリストに変換する方法論である。
トレーニングコーパスの要件をわずか0.3%まで大幅に最小化する。
本手法はMMedBench上での最先端のMMedLM2による改善の50%に適合する。
- 参考スコア(独自算出の注目度): 37.089378357827826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a pioneering methodology, termed StructTuning, to efficiently transform foundation Large Language Models (LLMs) into domain specialists. It significantly minimizes the training corpus requirement to a mere 0.3% while achieving an impressive 50% of traditional knowledge injection performance. Our method is inspired by the educational processes for human students, particularly how structured domain knowledge from textbooks is absorbed and then applied to tackle real-world challenges through specific exercises. Based on this, we propose a novel two-stage knowledge injection strategy: Structure-aware Continual Pre-Training (SCPT) and Structure-aware Supervised Fine-Tuning (SSFT). In the SCPT phase, we organize the training data into an auto-generated taxonomy of domain knowledge, enabling LLMs to effectively memorize textual segments linked to specific expertise within the taxonomy's architecture. Subsequently, in the SSFT phase, we explicitly prompt models to reveal the underlying knowledge structure in their outputs, leveraging this structured domain insight to address practical problems adeptly. Our ultimate method has undergone extensive evaluations across model architectures and scales, using closed-book question-answering tasks on LongBench and MMedBench datasets. Remarkably, our method matches 50% of the improvement displayed by the state-of-the-art MMedLM2 on MMedBench, but with only 0.3% quantity of the training corpus. This breakthrough showcases the potential to scale up our StructTuning for stronger domain-specific LLMs. Code will be made public soon.
- Abstract(参考訳): 本稿では,基礎言語モデル(LLM)をドメインスペシャリストに効率的に変換する手法であるStructTuningを提案する。
従来の知識注入性能の50パーセントを達成しながら、トレーニングコーパスの要件をわずか0.3%まで大幅に最小化する。
本手法は,人学生の学習過程,特に教科書からの構造化ドメイン知識が吸収され,特定の演習を通じて現実の課題に取り組むために応用される方法に着想を得たものである。
そこで本研究では,SCPT(Structure-aware Continual Pre-Training)とSSFT(Structure-aware Supervised Fine-Tuning)という2段階の知識注入戦略を提案する。
SCPTフェーズでは、学習データをドメイン知識の自動生成分類に整理し、LLMが分類体系内の特定の専門知識に関連するテキストセグメントを効果的に記憶できるようにする。
その後、SSFTフェーズにおいて、我々はモデルに対して、その出力の基盤となる知識構造を明らかにするよう促し、この構造的領域の洞察を活用して、実用的な問題に積極的に対処する。
我々の究極の手法は、LongBenchデータセットとMMedBenchデータセットのクローズドブック質問応答タスクを用いて、モデルアーキテクチャとスケールにわたって広範囲に評価されてきた。
本手法は,MMedBench上での最先端MMedLM2による改善の50%に適合するが,トレーニングコーパスの0.3%に留まる。
このブレークスルーは、より強力なドメイン固有のLLMのためにStructTuningをスケールアップする可能性を示している。
コードはまもなく公開されます。
関連論文リスト
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。
FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。
その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。
論文 参考訳(メタデータ) (2024-04-26T16:41:24Z) - Structure-aware Fine-tuning for Code Pre-trained Models [30.989863310409568]
CodePTMのための構造化・プラグ・アンド・プレイファインチューニング法である、構造対応ファインチューニング(SAT)を提案する。
まず,CodePTMから得られた情報と,コード構造から抽出した知識との差を定量化する構造損失を提案する。
次に、微調整性能を向上させるためにマルチタスク学習を導入する。
論文 参考訳(メタデータ) (2024-04-11T04:24:48Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Learning the Finer Things: Bayesian Structure Learning at the
Instantiation Level [0.0]
成功した機械学習手法は記憶と一般化の間のトレードオフを必要とする。
本稿では,探索的領域で学習し,一般化し,説明できる新しい確率的グラフィカルモデル構造学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-08T02:31:49Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。