論文の概要: Matching domain experts by training from scratch on domain knowledge
- arxiv url: http://arxiv.org/abs/2405.09395v2
- Date: Tue, 2 Jul 2024 16:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:09:19.904914
- Title: Matching domain experts by training from scratch on domain knowledge
- Title(参考訳): ドメイン知識をゼロからトレーニングすることでドメインエキスパートをマッチングする
- Authors: Xiaoliang Luo, Guangzhi Sun, Bradley C. Love,
- Abstract要約: 近年,大きな言語モデル (LLM) は神経科学実験の結果を予測する上で,人間の専門家より優れています。
ドメイン固有知識の13億トークンに対して,比較的小さな124MパラメータGPT-2モデルを訓練した。
数兆のトークンで訓練された大型LLMよりも桁違いに小さいにもかかわらず、小さなモデルは神経科学の結果を予測する専門家レベルのパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 5.898666039129008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models (LLMs) have outperformed human experts in predicting the results of neuroscience experiments (Luo et al., 2024). What is the basis for this performance? One possibility is that statistical patterns in that specific scientific literature, as opposed to emergent reasoning abilities arising from broader training, underlie LLMs' performance. To evaluate this possibility, we trained (next word prediction) a relatively small 124M-parameter GPT-2 model on 1.3 billion tokens of domain-specific knowledge. Despite being orders of magnitude smaller than larger LLMs trained on trillions of tokens, small models achieved expert-level performance in predicting neuroscience results. Small models trained on the neuroscience literature succeeded when they were trained from scratch using a tokenizer specifically trained on neuroscience text or when the neuroscience literature was used to finetune a pretrained GPT-2. Our results indicate that expert-level performance may be attained by even small LLMs through domain-specific, auto-regressive training approaches.
- Abstract(参考訳): 近年、大型言語モデル(LLM)は、神経科学実験の結果を予測する上で、人間の専門家より優れています(Luo et al , 2024)。
このパフォーマンスの基盤は何ですか?
1つの可能性として、特定の科学的文献における統計的パターンは、より広範な訓練によって生じる創発的な推論能力とは対照的に、LLMのパフォーマンスを損なうことである。
この可能性を評価するため、我々は13億個のドメイン固有知識のトークンを用いて比較的小さな124MパラメータGPT-2モデルを訓練した(次の単語予測)。
数兆のトークンで訓練された大型LLMよりも桁違いに小さいにもかかわらず、小さなモデルは神経科学の結果を予測する専門家レベルのパフォーマンスを達成した。
神経科学の文献で訓練された小さなモデルは、神経科学のテキストで特別に訓練されたトークン化剤を用いてスクラッチから訓練されたり、神経科学の文献で事前訓練されたGPT-2を微調整した時に成功した。
以上の結果から,ドメイン固有の自己回帰学習アプローチによって,専門家レベルのパフォーマンスが,小規模なLLMでも達成できる可能性が示唆された。
関連論文リスト
- Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training [7.726825072908519]
本研究は,幻覚の緩和を目的としたトレーニングプロトコルであるSensitive Neuron Dropout (SeND)を紹介する。
さらに,従来のEigenScoreを2倍の速度で近似する,教師なし幻覚検出尺度であるEfficient EigenScore(EES)を開発した。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z) - Grad-Instructor: Universal Backpropagation with Explainable Evaluation Neural Networks for Meta-learning and AutoML [0.0]
評価ニューラルネットワーク(ENN)は、ターゲットネットワークの性能を予測するために、深層強化学習を通じて訓練される。
ENNは、バックプロパゲーション中に追加評価機能として機能する。
論文 参考訳(メタデータ) (2024-06-15T08:37:51Z) - Large language models surpass human experts in predicting neuroscience results [60.26891446026707]
大きな言語モデル(LLM)は、人間の専門家よりも新しい結果を予測する。
BrainBenchは神経科学の結果を予測するためのベンチマークだ。
我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。
論文 参考訳(メタデータ) (2024-03-04T15:27:59Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - CancerGPT: Few-shot Drug Pair Synergy Prediction using Large Pre-trained
Language Models [3.682742580232362]
大規模事前学習言語モデル(LLM)は、様々な分野にわたる数ショット学習において大きな可能性を秘めている。
我々の研究は、限られたデータを持つまれな組織において、薬物対のシナジー予測に最初に取り組みました。
論文 参考訳(メタデータ) (2023-04-18T02:49:53Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Self-Paced Learning for Neural Machine Translation [55.41314278859938]
ニューラルネットワーク翻訳(NMT)訓練のためのセルフペースト学習を提案する。
提案モデルでは,強いベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-09T11:33:16Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。