論文の概要: Semantic are Beacons: A Semantic Perspective for Unveiling Parameter-Efficient Fine-Tuning in Knowledge Learning
- arxiv url: http://arxiv.org/abs/2405.18292v1
- Date: Tue, 28 May 2024 15:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:59:58.609274
- Title: Semantic are Beacons: A Semantic Perspective for Unveiling Parameter-Efficient Fine-Tuning in Knowledge Learning
- Title(参考訳): セマンティック・アズ・ビーコン : 知識学習におけるパラメータ効率の良い微調整のセマンティック・パースペクティブ
- Authors: Renzhi Wang, Piji Li,
- Abstract要約: 本稿では,PEFTの知識学習課題における制約の背景にある理由を明らかにするために,意味論的視点を提案する。
PEFTは、モデルを意図した知識ターゲットから遠ざけるという顕著なリスクを提示している。
本研究では,知識学習に有害なデータを排除するためのデータフィルタリング戦略と,意味的距離に注意を向けるための再重み付き学習戦略を導入する。
- 参考スコア(独自算出の注目度): 30.831866499812925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) methods enable efficient adaptation of Large Language Models (LLMs) to various downstream applications. However, the effectiveness of the PEFT diminishes notably when downstream tasks require accurate learning of factual knowledge. In this paper, we adopt a semantic perspective to investigate this phenomenon, uncovering the reasons behind PEFT's limitations in knowledge learning task. Our findings reveal that: (1) PEFT presents a notable risk of pushing the model away from the intended knowledge target; (2) multiple knowledge interfere with each other, and such interference suppresses the learning and expression of knowledge features. Based on these insights, we introduce a data filtering strategy to exclude data that is detrimental to knowledge learning and a re-weighted learning strategy to make the model attentive to semantic distance during knowledge learning. Experimental results demonstrate the effectiveness of the proposed method on open-source large language model, further validate the semantic challenge in PEFT, thus paving the way for future research.
- Abstract(参考訳): パラメータ効率の良いファインチューニング(PEFT)手法により、様々な下流アプリケーションにLarge Language Models(LLM)を効率的に適用できる。
しかし、下流タスクが事実知識の正確な学習を必要とする場合、PEFTの有効性は顕著に低下する。
本稿では,PEFTの知識学習課題における限界の背景を解明し,この現象を解析するために意味論的視点を採用する。
その結果,(1)PEFTは意図した知識目標からモデルを遠ざけるという顕著なリスクを示し,(2)複数の知識が相互に干渉し,その干渉が知識特徴の学習と表現を抑制することがわかった。
これらの知見に基づいて、知識学習に有害なデータを排除するためのデータフィルタリング戦略と、知識学習中に意味的距離に注意を向けるための再重み付き学習戦略を導入する。
実験により,提案手法がオープンソースの大規模言語モデルに対して有効であることを示すとともに,PEFTにおける意味的課題をさらに検証し,今後の研究への道を開いた。
関連論文リスト
- KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models [11.07333593086842]
知識認識型特異値適応(KaSA)
本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。
実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-08T21:26:22Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - UNLEARN Efficient Removal of Knowledge in Large Language Models [1.9797215742507548]
本稿では,UNLEARNと呼ばれる新しい手法を提案する。
このアプローチは、LLMの他の知識に悪影響を及ぼすことなく、知識の除去を識別し、特にターゲットとするサブスペース法に基づいている。
その結果、対象とする知識の96%は、元のモデルの2.5%の範囲内で、他の知識のパフォーマンスを維持しながら、忘れられることを示した。
論文 参考訳(メタデータ) (2024-08-08T00:53:31Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Enhancing Deep Knowledge Tracing via Diffusion Models for Personalized Adaptive Learning [1.2248793682283963]
本研究は、学習記録におけるデータ不足問題に取り組み、パーソナライズされた適応学習(PAL)のためのDKT性能を向上させることを目的とする。
拡散モデルであるTabDDPMを用いて合成教育記録を生成し、DKTの強化のためのトレーニングデータを強化する。
実験結果から,TabDDPMによるAI生成データにより,DKTの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-25T00:23:20Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Ontology-enhanced Prompt-tuning for Few-shot Learning [41.51144427728086]
少ないショットラーニングは、限られたサンプル数に基づいて予測を行うことを目的としている。
知識グラフやオントロジーライブラリなどの構造化データは、様々なタスクにおける数ショット設定の恩恵を受けるために利用されてきた。
論文 参考訳(メタデータ) (2022-01-27T05:41:36Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。