論文の概要: Scaling Laws for Fact Memorization of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.15720v1
- Date: Sat, 22 Jun 2024 03:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:54:52.675363
- Title: Scaling Laws for Fact Memorization of Large Language Models
- Title(参考訳): 大規模言語モデルのファクト記憶のためのスケーリング法則
- Authors: Xingyu Lu, Xiaonan Li, Qinyuan Cheng, Kai Ding, Xuanjing Huang, Xipeng Qiu,
- Abstract要約: 我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
- 参考スコア(独自算出の注目度): 67.94080978627363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fact knowledge memorization is crucial for Large Language Models (LLM) to generate factual and reliable responses. However, the behaviors of LLM fact memorization remain under-explored. In this paper, we analyze the scaling laws for LLM's fact knowledge and LLMs' behaviors of memorizing different types of facts. We find that LLMs' fact knowledge capacity has a linear and negative exponential law relationship with model size and training epochs, respectively. Estimated by the built scaling law, memorizing the whole Wikidata's facts requires training an LLM with 1000B non-embed parameters for 100 epochs, suggesting that using LLMs to memorize all public facts is almost implausible for a general pre-training setting. Meanwhile, we find that LLMs can generalize on unseen fact knowledge and its scaling law is similar to general pre-training. Additionally, we analyze the compatibility and preference of LLMs' fact memorization. For compatibility, we find LLMs struggle with memorizing redundant facts in a unified way. Only when correlated facts have the same direction and structure, the LLM can compatibly memorize them. This shows the inefficiency of LLM memorization for redundant facts. For preference, the LLM pays more attention to memorizing more frequent and difficult facts, and the subsequent facts can overwrite prior facts' memorization, which significantly hinders low-frequency facts memorization. Our findings reveal the capacity and characteristics of LLMs' fact knowledge learning, which provide directions for LLMs' fact knowledge augmentation.
- Abstract(参考訳): 事実的かつ信頼性の高い応答を生成するために,Large Language Models (LLM) には,ファクト知識の記憶が不可欠である。
しかし, LLM事実記憶の挙動は未解明のままである。
本稿では,LLMの事実知識のスケーリング法則と,異なる種類の事実を記憶するLLMの挙動を解析する。
LLMの事実知識能力は,それぞれモデルサイズとトレーニングエポックスとの線形および負の指数法則関係を持つことがわかった。
Wikidataの事実全体を記憶するためには、100のエポックで1000Bの非埋め込みパラメータを持つLSMをトレーニングする必要がある。
一方,LLMは未知の事実知識に基づいて一般化することができ,そのスケーリング法則は一般事前学習と類似している。
さらに,LLMの事実記憶の互換性と嗜好について分析する。
互換性のために、LLMは冗長な事実を統一的に記憶するのに苦労している。
相関事実が同じ方向と構造を持つ場合のみ、LLMはそれらを相互に記憶することができる。
このことは、冗長な事実に対するLLM記憶の非効率性を示している。
優先的に、LLMはより頻繁で困難な事実を記憶することにより多くの注意を払っており、その後の事実は過去の事実の記憶を上書きし、低頻度の事実の記憶を著しく妨げている。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
関連論文リスト
- FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。
両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。
直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文 参考訳(メタデータ) (2024-05-02T17:54:54Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Do LLMs Dream of Ontologies? [15.049502693786698]
大規模言語モデル(LLM)は、最近、自動テキスト理解と生成に革命をもたらした。
本稿では,汎用的な事前学習 LLM が,どの程度の知識を持つかを検討する。
論文 参考訳(メタデータ) (2024-01-26T15:10:23Z) - LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner States Analysis [11.712916673150245]
大規模言語モデル(LLM)は、現実と異なる出力を生成する。
この現象は特に、医療相談や法的な助言といった繊細な応用に関係している。
本稿では,LCMの内部状態を実測に活用した,新しいシームズネットワークベースモデルであるLCMファクトスコープを提案する。
論文 参考訳(メタデータ) (2023-12-27T01:44:47Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs? [24.931467926497152]
Head-to-Tailは、ヘッド、トーソ、テールファクトに関する18Kの質問対で構成されるベンチマークである。
既存のLSMは、特に胴体と尾部の実体の事実において、事実知識の把握の観点からはまだ完璧ではないことを示す。
論文 参考訳(メタデータ) (2023-08-20T05:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。