論文の概要: Understanding Finetuning for Factual Knowledge Extraction from Language
Models
- arxiv url: http://arxiv.org/abs/2301.11293v1
- Date: Thu, 26 Jan 2023 18:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 12:47:44.955991
- Title: Understanding Finetuning for Factual Knowledge Extraction from Language
Models
- Title(参考訳): 言語モデルからのファクチュアル知識抽出のためのファクチュニング理解
- Authors: Mehran Kazemi, Sid Mittal, Deepak Ramachandran
- Abstract要約: ウェブから大量のテキストのコーパスに事前訓練された言語モデル(LM)は、世界に関する様々な種類の知識を含むことが観察されている。
そこで本研究では,一組の事実知識を微調整することで,異なる集合からの質問に対するより良い回答が得られることを示す。
次に, 1-モデル混合と 2-混合ファインタニングの2つの負の効果を, LMの事前学習タスクと組み合わせて検討する。
- 参考スコア(独自算出の注目度): 1.7969777786551426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) pretrained on large corpora of text from the web have
been observed to contain large amounts of various types of knowledge about the
world. This observation has led to a new and exciting paradigm in knowledge
graph construction where, instead of manual curation or text mining, one
extracts knowledge from the parameters of an LM. Recently, it has been shown
that finetuning LMs on a set of factual knowledge makes them produce better
answers to queries from a different set, thus making finetuned LMs a good
candidate for knowledge extraction and, consequently, knowledge graph
construction. In this paper, we analyze finetuned LMs for factual knowledge
extraction. We show that along with its previously known positive effects,
finetuning also leads to a (potentially harmful) phenomenon which we call
Frequency Shock, where at the test time the model over-predicts rare entities
that appear in the training set and under-predicts common entities that do not
appear in the training set enough times. We show that Frequency Shock leads to
a degradation in the predictions of the model and beyond a point, the harm from
Frequency Shock can even outweigh the positive effects of finetuning, making
finetuning harmful overall. We then consider two solutions to remedy the
identified negative effect: 1- model mixing and 2- mixture finetuning with the
LM's pre-training task. The two solutions combined lead to significant
improvements compared to vanilla finetuning.
- Abstract(参考訳): Webからの大量のテキストコーパスに事前訓練された言語モデル(LM)は、世界に関する様々な種類の知識を含むことが観察されている。
この観察は知識グラフ構築において新たなエキサイティングなパラダイムをもたらし、手作業によるキュレーションやテキストマイニングの代わりに、LMのパラメータから知識を抽出する。
近年,実知識集合上でのlmsの微調整により,異なる集合からのクエリに対する回答が向上し,その結果,lmsが知識抽出の候補となり,知識グラフ構築が容易であることが示されている。
本稿では,実知識抽出のための微調整lmsの分析を行う。
従来知られていた正の効果とともに、微調整は周波数ショックと呼ばれる(潜在的に有害な)現象にもつながり、テスト時にモデルがトレーニングセットに現れる稀なエンティティを過大に予測し、トレーニングセットに十分に現れない共通エンティティを過大に予測する。
我々は,周波数衝撃がモデル予測の劣化を招き,一点を超えると,周波数衝撃による害は微調整の正の効果を上回り,全体として有害となることを示した。
次に, 1-モデル混合と 2-混合ファインタニングの2つの負の効果を, LMの事前学習タスクと組み合わせて検討する。
2つのソリューションを組み合わせることで、バニラファインタニングよりも大幅に改善された。
関連論文リスト
- R-Tuning: Teaching Large Language Models to Refuse Unknown Questions [68.60002086172133]
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータの間の知識ギャップを識別することによって定式化される。
実験により、この新しい命令チューニングアプローチは、既知の質問に答えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models
During Continual Fine-tuning [74.02063290659893]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい情報を学ぶ際に学習した情報を忘れたときに発生する現象である。
本研究では,大言語モデルの知識における忘れ現象を,ドメイン知識,推論,理解という観点から実証的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。