論文の概要: Knowledge Editing for Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2310.16218v1
- Date: Tue, 24 Oct 2023 22:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:47:04.999204
- Title: Knowledge Editing for Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルのための知識編集:調査
- Authors: Song Wang, Yaochen Zhu, Haochen Liu, Zaiyi Zheng, Chen Chen, Jundong L
- Abstract要約: 大規模言語モデル(LLM)の大きな欠点の1つは、事前学習に要する計算コストである。
知識に基づくモデル編集(KME)が注目を集めており、特定の知識を組み込むためにLLMを正確に修正することを目的としている。
- 参考スコア(独自算出の注目度): 17.602870736674785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently transformed both the academic and
industrial landscapes due to their remarkable capacity to understand, analyze,
and generate texts based on their vast knowledge and reasoning ability.
Nevertheless, one major drawback of LLMs is their substantial computational
cost for pre-training due to their unprecedented amounts of parameters. The
disadvantage is exacerbated when new knowledge frequently needs to be
introduced into the pre-trained model. Therefore, it is imperative to develop
effective and efficient techniques to update pre-trained LLMs. Traditional
methods encode new knowledge in pre-trained LLMs through direct fine-tuning.
However, naively re-training LLMs can be computationally intensive and risks
degenerating valuable pre-trained knowledge irrelevant to the update in the
model. Recently, Knowledge-based Model Editing (KME) has attracted increasing
attention, which aims to precisely modify the LLMs to incorporate specific
knowledge, without negatively influencing other irrelevant knowledge. In this
survey, we aim to provide a comprehensive and in-depth overview of recent
advances in the field of KME. We first introduce a general formulation of KME
to encompass different KME strategies. Afterward, we provide an innovative
taxonomy of KME techniques based on how the new knowledge is introduced into
pre-trained LLMs, and investigate existing KME strategies while analyzing key
insights, advantages, and limitations of methods from each category. Moreover,
representative metrics, datasets, and applications of KME are introduced
accordingly. Finally, we provide an in-depth analysis regarding the
practicality and remaining challenges of KME and suggest promising research
directions for further advancement in this field.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その膨大な知識と推論能力に基づいてテキストを理解し、分析し、生成する顕著な能力のために、最近、学術的および産業的景観を変革した。
それにもかかわらず、llmsの大きな欠点は、前例のない量のパラメータによる事前トレーニングの計算コストである。
事前訓練されたモデルに新しい知識を頻繁に導入する必要がある場合、デメリットは悪化する。
したがって、事前訓練されたLLMを更新するための効率的かつ効率的な技術を開発することが不可欠である。
従来の手法は、事前訓練されたllmにおける新しい知識を直接微調整によってエンコードする。
しかし, 自己学習型LLMは計算集約的であり, モデル更新によらず, 価値ある事前学習知識を劣化させるリスクがある。
近年,知識に基づくモデル編集(KME)が注目され,他の無関係な知識に悪影響を及ぼすことなく,特定の知識を組み込むためにLLMを正確に修正することを目指している。
本調査では,KME分野の最近の進歩を包括的かつ詳細に概観することを目的としている。
まず、異なるKME戦略を包含するKMEの一般的な定式化を導入する。
その後,本手法の革新的分類法として,既存のKME戦略を考察し,各カテゴリの手法の重要点,利点,限界を分析した上で,新たな知識の事前学習 LLM への導入方法に基づくKME手法の革新的分類法を提案する。
さらに、KMEの代表的な指標、データセット、応用を紹介する。
最後に,KMEの実践性と課題の残りについて詳細な分析を行い,今後の発展に向けた今後の研究の方向性を提案する。
関連論文リスト
- Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning [15.475427498268393]
TAALM(Train-Attention-Augmented Language Model)は,トークンに対する重み付けを動的に予測・適用することにより,学習効率を向上させる。
我々は,TAALMがベースライン上での最先端性能を証明し,従来のCKLアプローチと統合した場合に相乗的互換性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-24T01:04:34Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Measuring and Modifying Factual Knowledge in Large Language Models [2.8427946758947304]
大規模言語モデルは、膨大なテキストコレクションから得られた膨大な事実知識を格納する。
我々は,情報理論に基づく測度を用いて,大規模言語モデルに含まれる事実知識を推定する枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-09T21:25:48Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。