論文の概要: Augmenting Parameter-Efficient Pre-trained Language Models with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02501v1
- Date: Mon, 19 Jan 2026 10:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.401452
- Title: Augmenting Parameter-Efficient Pre-trained Language Models with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたパラメータ効率の良い事前学習言語モデルの拡張
- Authors: Saurabh Anand, Shubham Malaviya, Manish Shukla, Sachin Lodha,
- Abstract要約: 本稿では,大規模言語モデルを用いた事前学習型言語モデルの能力向上のための2つの戦略を提案する。
我々は,パラメータ効率の良い事前学習モデルと大規模言語モデルを組み合わせることで,モデルの信頼性と堅牢性を向上させることを実証的に実証した。
- 参考スコア(独自算出の注目度): 6.524460254566904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training AI models in cybersecurity with help of vast datasets offers significant opportunities to mimic real-world behaviors effectively. However, challenges like data drift and scarcity of labelled data lead to frequent updates of models and the risk of overfitting. To address these challenges, we used parameter-efficient fine-tuning techniques for pre-trained language models wherein we combine compacters with various layer freezing strategies. To enhance the capabilities of these pre-trained language models, in this work we introduce two strategies that use large language models. In the first strategy, we utilize large language models as data-labelling tools wherein they generate labels for unlabeled data. In the second strategy, large language modes are utilized as fallback mechanisms for predictions having low confidence scores. We perform comprehensive experimental analysis on the proposed strategies on different downstream tasks specific to cybersecurity domain. We empirically demonstrate that by combining parameter-efficient pre-trained models with large language models, we can improve the reliability and robustness of models, making them more suitable for real-world cybersecurity applications.
- Abstract(参考訳): 膨大なデータセットの助けを借りて、サイバーセキュリティにおけるAIモデルを訓練することは、現実世界の振る舞いを効果的に模倣する重要な機会を提供する。
しかし、データドリフトやラベル付きデータの不足といった課題は、頻繁なモデルの更新と過度な適合のリスクにつながる。
これらの課題に対処するために、事前訓練された言語モデルに対してパラメータ効率の良い微調整手法を用い、コンパクト化と様々な層凍結戦略を組み合わせた。
これらの事前訓練された言語モデルの能力を高めるため、本研究では、大きな言語モデルを使用する2つの戦略を導入する。
最初の戦略では、ラベルなしデータのラベルを生成するデータラベリングツールとして、大きな言語モデルを使用します。
第2の戦略では、信頼度が低い予測のためのフォールバック機構として、大きな言語モードが使用される。
本研究は,サイバーセキュリティ分野に特有なダウンストリームタスクに関する提案した戦略に関する総合的な実験分析を行う。
我々は,パラメータ効率のよい事前学習モデルと大規模言語モデルを組み合わせることで,モデルの信頼性と堅牢性を向上し,現実のサイバーセキュリティアプリケーションに適合させることを実証的に実証した。
関連論文リスト
- Evolution without Large Models: Training Language Model with Task Principles [52.44569608690695]
言語モデルの一般的なトレーニングアプローチは、人間が提供したデータセットを拡張するために、大規模な言語モデルを使用することである。
この方法は、広範囲な人的データアノテーションの必要性を排除し、トレーニングコストを大幅に削減する。
しかし、データ拡張時の二酸化炭素排出量の増加や、データ漏洩のリスクなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2025-07-08T13:52:45Z) - Deep Contrastive Unlearning for Language Models [9.36216515987051]
本稿では,Deep-Tuning(DeepCUT)言語モデルのためのDeep Contrastive Unlearningという機械学習フレームワークを提案する。
提案モデルでは,モデルの潜在空間を直接最適化することにより,機械学習を実現する。
論文 参考訳(メタデータ) (2025-03-19T04:58:45Z) - Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training [13.680205342714412]
大規模言語モデル(LLM)は、現代の自然言語処理のバックボーンとなっているが、センシティブなトレーニングデータの漏洩に関するプライバシー上の懸念を生じさせている。
本稿では,トークン固有の特徴を活用して,言語モデルのトレーニングデータを保護するための,軽量かつ効果的な経験的プライバシ保護手法である methodname を提案する。
論文 参考訳(メタデータ) (2025-02-27T03:37:45Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。