論文の概要: Teaching Specific Scientific Knowledge into Large Language Models
through Additional Training
- arxiv url: http://arxiv.org/abs/2312.03360v2
- Date: Mon, 18 Dec 2023 01:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:22:05.682134
- Title: Teaching Specific Scientific Knowledge into Large Language Models
through Additional Training
- Title(参考訳): 追加学習による大規模言語モデルへの特定科学知識の教育
- Authors: Kan Hatakeyama-Sato, Yasuhiko Igarashi, Shun Katakami, Yuta Nabae,
Teruaki Hayakawa
- Abstract要約: 本研究は,Llama 2 Large Language Model (LLM) に専門的な科学的知識を組み込むことを検討した。
テキスト拡張を利用して、スタイル変換や翻訳を含む特殊なテキストの不足に対処する。
我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through additional training, we explore embedding specialized scientific
knowledge into the Llama 2 Large Language Model (LLM). Key findings reveal that
effective knowledge integration requires reading texts from multiple
perspectives, especially in instructional formats. We utilize text augmentation
to tackle the scarcity of specialized texts, including style conversions and
translations. Hyperparameter optimization proves crucial, with different size
models (7b, 13b, and 70b) reasonably undergoing additional training. Validating
our methods, we construct a dataset of 65,000 scientific papers. Although we
have succeeded in partially embedding knowledge, the study highlights the
complexities and limitations of incorporating specialized information into
LLMs, suggesting areas for further improvement.
- Abstract(参考訳): 追加トレーニングを通じて,Llama 2 Large Language Model (LLM) に専門的な科学知識を組み込む方法について検討する。
鍵となる発見は、効果的な知識の統合は、複数の観点、特に指導形式からテキストを読む必要があるということである。
スタイル変換や翻訳を含む特殊テキストの不足に対処するために,テキスト拡張を利用する。
ハイパーパラメータ最適化は重要であり、異なるサイズモデル(7b、13b、70b)が追加の訓練を受けている。
提案手法を検証し,65,000論文のデータセットを構築した。
我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調し、さらなる改善を示唆している。
関連論文リスト
- A Mathematical Theory for Learning Semantic Languages by Abstract Learners [9.139188656944429]
大規模言語モデルの最近の進歩は、システムパラメータの数とトレーニングデータのサイズが一定の閾値を超えると、能力(学習スキル)が出現することを示した。
我々は、学習(または訓練)過程を考慮して、学習スキルの出現を説明する数学的理論を開発する。
本稿ではセマンティック圧縮の手法を提案し,そのセマンティックコミュニケーションへの応用について論じる。
論文 参考訳(メタデータ) (2024-04-10T13:50:46Z) - Quantitative knowledge retrieval from large language models [4.155711233354597]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
本稿では,データ解析作業を支援するための定量的知識検索のメカニズムとして,LLMの実現可能性について検討する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z) - Procedural Text Mining with Large Language Models [0.21756081703275998]
本研究では,非構造化PDFテキストからの手順を段階的に問合せ方式で抽出する問題に対処する。
我々は、現在最先端のGPT-4(Generative Pre-trained Transformer 4)モデルを活用し、文脈内学習の2つのバリエーションを伴っている。
この結果は、このアプローチの約束と、コンテキスト内学習のカスタマイズの価値の両方を強調している。
論文 参考訳(メタデータ) (2023-10-05T08:27:33Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。