論文の概要: Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models
- arxiv url: http://arxiv.org/abs/2411.00686v1
- Date: Fri, 01 Nov 2024 15:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:27.540419
- Title: Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models
- Title(参考訳): Latent Paraphrasing: 言語モデルにおける知識注入を改善するレイヤの摂動
- Authors: Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jaewoong Cho,
- Abstract要約: LaPaelは、初期大規模言語モデル層に入力依存ノイズを適用する潜在レベルパラフレーズ法である。
質問応答ベンチマーク実験により、LaPaelは、標準的な微調整および既存のノイズベースアプローチよりも知識注入を改善することを示した。
- 参考スコア(独自算出の注目度): 54.385486006684495
- License:
- Abstract: As Large Language Models (LLMs) are increasingly deployed in specialized domains with continuously evolving knowledge, the need for timely and precise knowledge injection has become essential. Fine-tuning with paraphrased data is a common approach to enhance knowledge injection, yet it faces two significant challenges: high computational costs due to repetitive external model usage and limited sample diversity. To this end, we introduce LaPael, a latent-level paraphrasing method that applies input-dependent noise to early LLM layers. This approach enables diverse and semantically consistent augmentations directly within the model. Furthermore, it eliminates the recurring costs of paraphrase generation for each knowledge update. Our extensive experiments on question-answering benchmarks demonstrate that LaPael improves knowledge injection over standard fine-tuning and existing noise-based approaches. Additionally, combining LaPael with data-level paraphrasing further enhances performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、継続的に進化する知識を持つ特殊なドメインに徐々に展開されるため、タイムリーかつ正確な知識注入の必要性が重要になっている。
言い換えられたデータによる微調整は、知識注入を強化するための一般的なアプローチであるが、反復的な外部モデルの使用による高い計算コストと限られたサンプル多様性の2つの大きな課題に直面している。
この目的のために、初期LCM層に入力依存ノイズを適用する潜在レベルパラフレージング手法であるLaPaelを紹介する。
このアプローチは、モデル内で直接、多様でセマンティックに一貫した拡張を可能にする。
さらに、知識更新毎にパラフレーズ生成の繰り返しコストを削減する。
質問応答ベンチマークに関する広範囲な実験により、LaPaelは、標準的な微調整および既存のノイズベースアプローチよりも知識注入を改善していることが示された。
さらに、LaPaelとデータレベルのパラフレーズを組み合わせることで、パフォーマンスがさらに向上する。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Infusing Knowledge into Large Language Models with Contextual Prompts [5.865016596356753]
入力テキスト中の文脈からプロンプトを生成することにより,知識注入のためのシンプルだが一般化可能なアプローチを提案する。
本実験は, 微調整LDMを用いて評価する手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-03T11:19:26Z) - Augmenting LLMs with Knowledge: A survey on hallucination prevention [0.0]
この調査は言語モデル(LM)の領域を掘り下げ、外部の知識ソースをタップする機能を備えている。
欠落したトークンを予測するという標準的な目的に固執する一方で、これらの拡張LMは多種多様で、おそらくパラメトリックでない外部モジュールを活用する。
論文 参考訳(メタデータ) (2023-09-28T14:09:58Z) - KITLM: Domain-Specific Knowledge InTegration into Language Models for
Question Answering [30.129418454426844]
大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。
関連情報注入による言語モデルへの知識ベース統合手法であるKITLMを提案する。
提案手法は,GPT-3.5-turbo と最先端知識注入法 SKILL を併用し,MetaQA 上での精度の1.5倍の精度向上を実現している。
論文 参考訳(メタデータ) (2023-08-07T14:42:49Z) - Advanced Conditional Variational Autoencoders (A-CVAE): Towards
interpreting open-domain conversation generation via disentangling latent
feature representation [15.742077523458995]
本稿では,メソスコピックスケールの特徴的絡み合いを伴う認知的アプローチを通じて,先行知識による生成モデルを活用することを提案する。
本稿では,潜在空間分布の解釈可能性を客観的に評価できるオープンドメイン対話のための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-07-26T07:39:36Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。