論文の概要: Teaching Specific Scientific Knowledge into Large Language Models
through Additional Training
- arxiv url: http://arxiv.org/abs/2312.03360v1
- Date: Wed, 6 Dec 2023 08:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 15:33:26.969654
- Title: Teaching Specific Scientific Knowledge into Large Language Models
through Additional Training
- Title(参考訳): 追加学習による大規模言語モデルへの特定科学知識の教育
- Authors: Kan Hatakeyama-Sato, Yasuhiko Igarashi, Shun Katakami, Yuta Nabae,
Teruaki Hayakawa
- Abstract要約: 本研究は,Llama 2 Large Language Model (LLM) に専門的な科学的知識を組み込むことを検討した。
テキスト拡張を利用して、スタイル変換や翻訳を含む特殊なテキストの不足に対処する。
我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through additional training, we explore embedding specialized scientific
knowledge into the Llama 2 Large Language Model (LLM). Key findings reveal that
effective knowledge integration requires reading texts from multiple
perspectives, especially in instructional formats. We utilize text augmentation
to tackle the scarcity of specialized texts, including style conversions and
translations. Hyperparameter optimization proves crucial, with different size
models (7b, 13b, and 70b) reasonably undergoing additional training. Validating
our methods, we construct a dataset of 65,000 scientific papers. Although we
have succeeded in partially embedding knowledge, the study highlights the
complexities and limitations of incorporating specialized information into
LLMs, suggesting areas for further improvement.
- Abstract(参考訳): 追加トレーニングを通じて,Llama 2 Large Language Model (LLM) に専門的な科学知識を組み込む方法について検討する。
鍵となる発見は、効果的な知識の統合は、複数の観点、特に指導形式からテキストを読む必要があるということである。
スタイル変換や翻訳を含む特殊テキストの不足に対処するために,テキスト拡張を利用する。
ハイパーパラメータ最適化は重要であり、異なるサイズモデル(7b、13b、70b)が追加の訓練を受けている。
提案手法を検証し,65,000論文のデータセットを構築した。
我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調し、さらなる改善を示唆している。
関連論文リスト
- TopoChat: Enhancing Topological Materials Retrieval With Large Language Model and Multi-Source Knowledge [4.654635844923322]
大規模言語モデル (LLM) はテキスト生成タスクにおいて顕著な性能を示した。
TopoChatと呼ばれるトポロジカル材料のための対話システムを開発した。
TopoChatは、構造およびプロパティクエリ、マテリアルレコメンデーション、複雑なリレーショナル推論において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-09-10T06:01:16Z) - Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。
汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。
系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。
ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文 参考訳(メタデータ) (2024-05-24T12:04:54Z) - Quantitative knowledge retrieval from large language models [4.155711233354597]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
本稿では,データ解析作業を支援するための定量的知識検索のメカニズムとして,LLMの実現可能性について検討する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z) - Procedural Text Mining with Large Language Models [0.21756081703275998]
本研究では,非構造化PDFテキストからの手順を段階的に問合せ方式で抽出する問題に対処する。
我々は、現在最先端のGPT-4(Generative Pre-trained Transformer 4)モデルを活用し、文脈内学習の2つのバリエーションを伴っている。
この結果は、このアプローチの約束と、コンテキスト内学習のカスタマイズの価値の両方を強調している。
論文 参考訳(メタデータ) (2023-10-05T08:27:33Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。