論文の概要: Classifier-free guidance in LLMs Safety
- arxiv url: http://arxiv.org/abs/2412.06846v1
- Date: Sun, 08 Dec 2024 02:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:51.063462
- Title: Classifier-free guidance in LLMs Safety
- Title(参考訳): LLMの安全性における分類器フリーガイダンス
- Authors: Roman Smirnov,
- Abstract要約: 本稿では,修正型分類器フリーガイダンスによって強化された推論を用いたORPO強化学習法を用いて,保持データセットのないLLMアンラーニングについて述べる。
この記事は、NeurIPS 2024 LLM-PC 提出の延長版であり、第2位に贈られた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The paper describes LLM unlearning without a retaining dataset, using the ORPO reinforcement learning method with inference enhanced by modified classifier-free guidance. Significant improvement in unlearning, without degradation of the model, is achieved through direct training on synthetic replacement data in CFG-aware training regime, with classifier-free guidance applied during the inference. This article is an extended version of the NeurIPS 2024 LLM-PC submission, which was awarded second prize.
- Abstract(参考訳): 本稿では,修正型分類器フリーガイダンスによって強化された推論を用いたORPO強化学習法を用いて,保持データセットのないLLMアンラーニングについて述べる。
モデルを劣化させることなく、未学習の顕著な改善は、CFG対応学習システムにおける合成置換データを直接トレーニングすることで達成され、推論中に分類子なし指導が適用される。
この記事は、NeurIPS 2024 LLM-PC 提出の延長版であり、第2位に贈られた。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
既存のメソッドは、しばしば追加の参照データ、分散やドメイン予測のための独立したコンポーネントに依存します。
本稿では,動的ランク選択型低ランク適応(LoRA)を提案する。
本手法は,学習済みの知識とCL中に獲得した知識の両方を保持することで,学習済みのVLMを継続的に強化する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings [7.957874169275548]
トレーニング不要な埋め込み手法は、事前訓練された大規模言語モデル(LLM)を直接利用してテキストを埋め込む。
そこで本研究では,LLMを用いて意味を保った文の多種多様な変換を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:36:53Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - InstUPR : Instruction-based Unsupervised Passage Reranking with Large Language Models [35.067998820937284]
InstUPRは、大規模言語モデル(LLM)に基づく教師なしパスのランク付け手法である。
ソフトスコアアグリゲーション手法を導入し、教師なしパスの再ランクにペアワイズ・リランクを採用する。
BEIRベンチマークの実験では、InstUPRは教師なしベースラインと命令調整されたリランカよりも優れていた。
論文 参考訳(メタデータ) (2024-03-25T05:31:22Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。