論文の概要: Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2403.10056v1
- Date: Fri, 15 Mar 2024 06:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 18:19:27.885487
- Title: Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning
- Title(参考訳): Don't half-listen: 連続的なインストラクションチューニングにおけるキーパート情報の取得
- Authors: Yongquan He, Xuancheng Huang, Minghao Tang, Lingxun Meng, Xiang Li, Wei Lin, Wenyuan Zhang, Yifu Gao,
- Abstract要約: キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練させる。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 13.535110749767451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning for large language models (LLMs) can drive them to produce results consistent with human goals in specific downstream tasks. However, the process of continual instruction tuning (CIT) for LLMs may bring about the catastrophic forgetting (CF) problem, where previously learned abilities are degraded. Recent methods try to alleviate the CF problem by modifying models or replaying data, which may only remember the surface-level pattern of instructions and get confused on held-out tasks. In this paper, we propose a novel continual instruction tuning method based on Key-part Information Gain (KPIG). Our method computes the information gain on masked parts to dynamically replay data and refine the training objective, which enables LLMs to capture task-aware information relevant to the correct response and alleviate overfitting to general descriptions in instructions. In addition, we propose two metrics, P-score and V-score, to measure the generalization and instruction-following abilities of LLMs. Experiments demonstrate our method achieves superior performance on both seen and held-out tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)のインストラクションチューニングは、特定の下流タスクにおける人間の目標と整合した結果を生み出すことができる。
しかし、LCMの連続的指導チューニング(CIT)のプロセスは、それまでの学習能力が劣化していた大惨な忘れ(CF)問題を引き起こす可能性がある。
最近の手法では、モデルの変更やデータ再生によってCF問題を緩和しようとするが、これは命令の表面レベルのパターンのみを記憶し、ホールドアウトタスクで混乱する可能性がある。
本稿では,キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練することにより,LCMが正しい応答に関連するタスク認識情報を捕捉し,命令の一般的な記述への過度な適合を緩和する。
さらに,LLMの一般化と命令追従能力を測定するために,PスコアとVスコアという2つの指標を提案する。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
関連論文リスト
- Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。
多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。
注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文 参考訳(メタデータ) (2024-05-23T10:12:03Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low
Training Data Instruction Tuning [13.558918552284906]
本稿では,大規模言語モデル(LLM)の指導訓練に使用するデータを削減することに着目し,トレーニングコストの低減とデータ効率の向上を図る。
その結果、タスク固有のモデルは、オリジナルのデータセットの0.5%未満でトレーニングでき、完全なタスク関連のデータでトレーニングされたモデルよりも2%パフォーマンスが向上したことが示唆された。
論文 参考訳(メタデータ) (2023-05-16T07:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。