Fugu-MT 論文翻訳(概要): Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge

論文の概要: Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge

arxiv url: http://arxiv.org/abs/2407.16724v1
Date: Tue, 23 Jul 2024 12:38:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 15:54:04.464647
Title: Educating LLMs like Human Students: Structure-aware Injection of Domain Knowledge
Title（参考訳）: 人間の学生のようにLLMを教育する:ドメイン知識の構造を意識した注入
Authors: Kai Liu, Ze Chen, Zhihang Fu, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye,
Abstract要約: StructTuningは、大規模言語モデル(LLM)をドメインスペシャリストに変換する方法論である。トレーニングコーパスの要件をわずか0.3%まで大幅に最小化する。本手法はMMedBench上での最先端のMMedLM2による改善の50%に適合する。
参考スコア（独自算出の注目度）: 37.089378357827826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a pioneering methodology, termed StructTuning, to efficiently transform foundation Large Language Models (LLMs) into domain specialists. It significantly minimizes the training corpus requirement to a mere 0.3% while achieving an impressive 50% of traditional knowledge injection performance. Our method is inspired by the educational processes for human students, particularly how structured domain knowledge from textbooks is absorbed and then applied to tackle real-world challenges through specific exercises. Based on this, we propose a novel two-stage knowledge injection strategy: Structure-aware Continual Pre-Training (SCPT) and Structure-aware Supervised Fine-Tuning (SSFT). In the SCPT phase, we organize the training data into an auto-generated taxonomy of domain knowledge, enabling LLMs to effectively memorize textual segments linked to specific expertise within the taxonomy's architecture. Subsequently, in the SSFT phase, we explicitly prompt models to reveal the underlying knowledge structure in their outputs, leveraging this structured domain insight to address practical problems adeptly. Our ultimate method has undergone extensive evaluations across model architectures and scales, using closed-book question-answering tasks on LongBench and MMedBench datasets. Remarkably, our method matches 50% of the improvement displayed by the state-of-the-art MMedLM2 on MMedBench, but with only 0.3% quantity of the training corpus. This breakthrough showcases the potential to scale up our StructTuning for stronger domain-specific LLMs. Code will be made public soon.
Abstract（参考訳）: 本稿では,基礎言語モデル(LLM)をドメインスペシャリストに効率的に変換する手法であるStructTuningを提案する。従来の知識注入性能の50パーセントを達成しながら、トレーニングコーパスの要件をわずか0.3%まで大幅に最小化する。本手法は,人学生の学習過程,特に教科書からの構造化ドメイン知識が吸収され,特定の演習を通じて現実の課題に取り組むために応用される方法に着想を得たものである。そこで本研究では,SCPT(Structure-aware Continual Pre-Training)とSSFT(Structure-aware Supervised Fine-Tuning)という2段階の知識注入戦略を提案する。 SCPTフェーズでは、学習データをドメイン知識の自動生成分類に整理し、LLMが分類体系内の特定の専門知識に関連するテキストセグメントを効果的に記憶できるようにする。その後、SSFTフェーズにおいて、我々はモデルに対して、その出力の基盤となる知識構造を明らかにするよう促し、この構造的領域の洞察を活用して、実用的な問題に積極的に対処する。我々の究極の手法は、LongBenchデータセットとMMedBenchデータセットのクローズドブック質問応答タスクを用いて、モデルアーキテクチャとスケールにわたって広範囲に評価されてきた。本手法は,MMedBench上での最先端MMedLM2による改善の50%に適合するが,トレーニングコーパスの0.3%に留まる。このブレークスルーは、より強力なドメイン固有のLLMのためにStructTuningをスケールアップする可能性を示している。コードはまもなく公開されます。

関連論文リスト

Localizing Knowledge in Diffusion Transformers [44.27817967554535]
本研究では,Diffusion Transformerブロック内に特定の種類の知識がエンコードされている場所をローカライズするモデルおよび知識に依存しない手法を提案する。同定されたブロックは、生成した出力における知識表現と因果関係があることが示される。本研究は、DiTの内部構造に関する新たな知見を提供し、より解釈可能で、効率的で、制御可能なモデル編集のための実践的な経路を導入する。
論文参考訳（メタデータ） (2025-05-24T19:02:20Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
FANformer: Improving Large Language Models Through Effective Periodicity Modeling [30.84203256282429]
本稿ではFANformerを紹介し,Fourier Analysis Network(FAN)をアテンション機構に統合し,効率的な周期性モデリングを実現する。 FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて,Transformerよりも一貫してパフォーマンスが向上している。 FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
論文参考訳（メタデータ） (2025-02-28T18:52:24Z)
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文参考訳（メタデータ） (2024-10-11T13:52:44Z)
HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling [39.14392943549792]
本稿では,階層型プロンプトチューニング(HPT)と呼ばれる新しい手法を提案し,構造化知識と従来の言語知識の同時モデリングを可能にする。低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。全体意味論をモデル化する高レベルかつグローバルレベルのプロンプトを取り入れることで、提案された階層構造は、クロスレベルな相互リンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文参考訳（メタデータ） (2024-08-27T06:50:28Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。 FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。
論文参考訳（メタデータ） (2024-04-26T16:41:24Z)
Structure-aware Fine-tuning for Code Pre-trained Models [30.989863310409568]
CodePTMのための構造化・プラグ・アンド・プレイファインチューニング法である、構造対応ファインチューニング(SAT)を提案する。まず,CodePTMから得られた情報と,コード構造から抽出した知識との差を定量化する構造損失を提案する。次に、微調整性能を向上させるためにマルチタスク学習を導入する。
論文参考訳（メタデータ） (2024-04-11T04:24:48Z)
Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文参考訳（メタデータ） (2024-03-30T01:56:07Z)
Unifying Structure and Language Semantic for Efficient Contrastive Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文参考訳（メタデータ） (2023-11-07T11:17:55Z)
StructGPT: A General Framework for Large Language Model to Reason over Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-16T17:45:23Z)
PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文参考訳（メタデータ） (2023-03-09T18:54:12Z)
Learning the Finer Things: Bayesian Structure Learning at the Instantiation Level [0.0]
成功した機械学習手法は記憶と一般化の間のトレードオフを必要とする。本稿では,探索的領域で学習し,一般化し,説明できる新しい確率的グラフィカルモデル構造学習手法を提案する。
論文参考訳（メタデータ） (2023-03-08T02:31:49Z)
Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文参考訳（メタデータ） (2021-10-26T04:03:45Z)
Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文参考訳（メタデータ） (2020-12-01T11:46:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。