論文の概要: Understanding Finetuning for Factual Knowledge Extraction from Language
Models
- arxiv url: http://arxiv.org/abs/2301.11293v1
- Date: Thu, 26 Jan 2023 18:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 12:47:44.955991
- Title: Understanding Finetuning for Factual Knowledge Extraction from Language
Models
- Title(参考訳): 言語モデルからのファクチュアル知識抽出のためのファクチュニング理解
- Authors: Mehran Kazemi, Sid Mittal, Deepak Ramachandran
- Abstract要約: ウェブから大量のテキストのコーパスに事前訓練された言語モデル(LM)は、世界に関する様々な種類の知識を含むことが観察されている。
そこで本研究では,一組の事実知識を微調整することで,異なる集合からの質問に対するより良い回答が得られることを示す。
次に, 1-モデル混合と 2-混合ファインタニングの2つの負の効果を, LMの事前学習タスクと組み合わせて検討する。
- 参考スコア(独自算出の注目度): 1.7969777786551426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) pretrained on large corpora of text from the web have
been observed to contain large amounts of various types of knowledge about the
world. This observation has led to a new and exciting paradigm in knowledge
graph construction where, instead of manual curation or text mining, one
extracts knowledge from the parameters of an LM. Recently, it has been shown
that finetuning LMs on a set of factual knowledge makes them produce better
answers to queries from a different set, thus making finetuned LMs a good
candidate for knowledge extraction and, consequently, knowledge graph
construction. In this paper, we analyze finetuned LMs for factual knowledge
extraction. We show that along with its previously known positive effects,
finetuning also leads to a (potentially harmful) phenomenon which we call
Frequency Shock, where at the test time the model over-predicts rare entities
that appear in the training set and under-predicts common entities that do not
appear in the training set enough times. We show that Frequency Shock leads to
a degradation in the predictions of the model and beyond a point, the harm from
Frequency Shock can even outweigh the positive effects of finetuning, making
finetuning harmful overall. We then consider two solutions to remedy the
identified negative effect: 1- model mixing and 2- mixture finetuning with the
LM's pre-training task. The two solutions combined lead to significant
improvements compared to vanilla finetuning.
- Abstract(参考訳): Webからの大量のテキストコーパスに事前訓練された言語モデル(LM)は、世界に関する様々な種類の知識を含むことが観察されている。
この観察は知識グラフ構築において新たなエキサイティングなパラダイムをもたらし、手作業によるキュレーションやテキストマイニングの代わりに、LMのパラメータから知識を抽出する。
近年,実知識集合上でのlmsの微調整により,異なる集合からのクエリに対する回答が向上し,その結果,lmsが知識抽出の候補となり,知識グラフ構築が容易であることが示されている。
本稿では,実知識抽出のための微調整lmsの分析を行う。
従来知られていた正の効果とともに、微調整は周波数ショックと呼ばれる(潜在的に有害な)現象にもつながり、テスト時にモデルがトレーニングセットに現れる稀なエンティティを過大に予測し、トレーニングセットに十分に現れない共通エンティティを過大に予測する。
我々は,周波数衝撃がモデル予測の劣化を招き,一点を超えると,周波数衝撃による害は微調整の正の効果を上回り,全体として有害となることを示した。
次に, 1-モデル混合と 2-混合ファインタニングの2つの負の効果を, LMの事前学習タスクと組み合わせて検討する。
2つのソリューションを組み合わせることで、バニラファインタニングよりも大幅に改善された。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Understanding Finetuning for Factual Knowledge Extraction [45.398982602347765]
本研究は,事前学習中に不備な既知事実の微調整は,事前学習中にすべての事実が見られた場合でも,既知事実の微調整よりもはるかに悪い事実性を示すものであることを示す。
その結果,事前学習した知識と微調整データとの相互作用に光を当て,知識集約的なタスクを微調整する場合に,事実が事前学習されたモデルにどのように格納されているかを考慮することが重要であることを示した。
論文 参考訳(メタデータ) (2024-06-20T23:27:06Z) - Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい知識を取得しながら学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデル(LLM)における連続的指導調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。