Fugu-MT 論文翻訳(概要): Teaching Specific Scientific Knowledge into Large Language Models through Additional Training

論文の概要: Teaching Specific Scientific Knowledge into Large Language Models through Additional Training

arxiv url: http://arxiv.org/abs/2312.03360v2
Date: Mon, 18 Dec 2023 01:43:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 19:22:05.682134
Title: Teaching Specific Scientific Knowledge into Large Language Models through Additional Training
Title（参考訳）: 追加学習による大規模言語モデルへの特定科学知識の教育
Authors: Kan Hatakeyama-Sato, Yasuhiko Igarashi, Shun Katakami, Yuta Nabae, Teruaki Hayakawa
Abstract要約: 本研究は,Llama 2 Large Language Model (LLM) に専門的な科学的知識を組み込むことを検討した。テキスト拡張を利用して、スタイル変換や翻訳を含む特殊なテキストの不足に対処する。我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Through additional training, we explore embedding specialized scientific knowledge into the Llama 2 Large Language Model (LLM). Key findings reveal that effective knowledge integration requires reading texts from multiple perspectives, especially in instructional formats. We utilize text augmentation to tackle the scarcity of specialized texts, including style conversions and translations. Hyperparameter optimization proves crucial, with different size models (7b, 13b, and 70b) reasonably undergoing additional training. Validating our methods, we construct a dataset of 65,000 scientific papers. Although we have succeeded in partially embedding knowledge, the study highlights the complexities and limitations of incorporating specialized information into LLMs, suggesting areas for further improvement.
Abstract（参考訳）: 追加トレーニングを通じて,Llama 2 Large Language Model (LLM) に専門的な科学知識を組み込む方法について検討する。鍵となる発見は、効果的な知識の統合は、複数の観点、特に指導形式からテキストを読む必要があるということである。スタイル変換や翻訳を含む特殊テキストの不足に対処するために,テキスト拡張を利用する。ハイパーパラメータ最適化は重要であり、異なるサイズモデル(7b、13b、70b)が追加の訓練を受けている。提案手法を検証し,65,000論文のデータセットを構築した。我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調し、さらなる改善を示唆している。

関連論文リスト

The Rise of Parameter Specialization for Knowledge Storage in Large Language Models [50.91855620712756]
言語モデルが高度化するにつれて、それらのパラメータは特殊化を増大させることを示す。この特殊な知識分布が,これらのモデルにおける知識利用効率の向上に寄与することを実験的に検証した。
論文参考訳（メタデータ） (2025-05-22T20:15:01Z)
Effective LLM Knowledge Learning via Model Generalization [73.16975077770765]
大規模言語モデル(LLM)は、広範囲な世界知識を含む膨大なドキュメントに基づいて訓練されている。自己回帰的な事前学習を通じて知識がどのように獲得されるかは、まだよく理解されていない。本稿では,LLM知識学習の理解と改善に焦点をあてる。
論文参考訳（メタデータ） (2025-03-05T17:56:20Z)
WisdomBot: Tuning Large Language Models with Artificial Intelligence Knowledge [17.74988145184004]
大規模言語モデル(LLM)は自然言語処理(NLP)の強力なツールとして登場した。本稿では,LLMの力と教育理論を組み合わせた,WisdomBotという教育用LLMについて述べる。本稿では,推論中の2つの重要な拡張,すなわち,ローカル知識ベース検索の強化と,推論中の検索エンジン検索の強化を紹介する。
論文参考訳（メタデータ） (2025-01-22T13:36:46Z)
TopoChat: Enhancing Topological Materials Retrieval With Large Language Model and Multi-Source Knowledge [4.654635844923322]
大規模言語モデル (LLM) はテキスト生成タスクにおいて顕著な性能を示した。 TopoChatと呼ばれるトポロジカル材料のための対話システムを開発した。 TopoChatは、構造およびプロパティクエリ、マテリアルレコメンデーション、複雑なリレーショナル推論において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-09-10T06:01:16Z)
Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文参考訳（メタデータ） (2024-07-14T17:18:16Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。 SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文参考訳（メタデータ） (2024-05-24T12:04:54Z)
Quantitative knowledge retrieval from large language models [4.155711233354597]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。本稿では,データ解析作業を支援するための定量的知識検索のメカニズムとして,LLMの実現可能性について検討する。
論文参考訳（メタデータ） (2024-02-12T16:32:37Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
MechGPT, a language-based strategy for mechanics and materials modeling that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文参考訳（メタデータ） (2023-10-16T14:29:35Z)
Procedural Text Mining with Large Language Models [0.21756081703275998]
本研究では,非構造化PDFテキストからの手順を段階的に問合せ方式で抽出する問題に対処する。我々は、現在最先端のGPT-4(Generative Pre-trained Transformer 4)モデルを活用し、文脈内学習の2つのバリエーションを伴っている。この結果は、このアプローチの約束と、コンテキスト内学習のカスタマイズの価値の両方を強調している。
論文参考訳（メタデータ） (2023-10-05T08:27:33Z)
Pre-training Multi-task Contrastive Learning Models for Scientific Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文参考訳（メタデータ） (2023-05-23T16:47:22Z)
Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文参考訳（メタデータ） (2021-09-02T16:05:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。