Fugu-MT 論文翻訳(概要): Decoupled Alignment for Robust Plug-and-Play Adaptation

論文の概要: Decoupled Alignment for Robust Plug-and-Play Adaptation

arxiv url: http://arxiv.org/abs/2406.01514v3
Date: Thu, 6 Jun 2024 04:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 19:54:03.342498
Title: Decoupled Alignment for Robust Plug-and-Play Adaptation
Title（参考訳）: ロバストプラグアンドプレイ適応のためのデカップリングアライメント
Authors: Haozheng Luo, Jiahao Yu, Wenxin Zhang, Jialong Li, Jerry Yao-Chieh Hu, Xinyu Xing, Han Liu,
Abstract要約: 教師付き微調整(SFT)や人間フィードバックからの強化学習(RLHF)を必要とせずに,大規模言語モデル(LLM)を整列させる低リソース安全性向上手法を提案する。本研究の主な目的は、知識蒸留を利用して、既存のよく整合したLLMからアライメント情報を抽出し、プラグイン・アンド・プレイ方式で非整合なLLMに統合することである。有害な質問データセットでは, 平均防御成功率が約14.41%向上し, 51.39%に達した。
参考スコア（独自算出の注目度）: 19.10463167105986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a low-resource safety enhancement method for aligning large language models (LLMs) without the need for supervised fine-tuning (SFT) or reinforcement learning from human feedback (RLHF). Our main idea is to exploit knowledge distillation to extract the alignment information from existing well-aligned LLMs and integrate it into unaligned LLMs in a plug-and-play fashion. Methodology, we employ delta debugging to identify the critical components of knowledge necessary for effective distillation. On the harmful question dataset, our method significantly enhances the average defense success rate by approximately 14.41%, reaching as high as 51.39%, in 17 unaligned pre-trained LLMs, without compromising performance.
Abstract（参考訳）: 本研究では,大規模言語モデル (LLM) を,教師付き微調整 (SFT) や人間フィードバック (RLHF) からの強化学習を必要とせずに整列させる低リソース安全性向上手法を提案する。本研究の主な目的は、知識蒸留を利用して、既存のよく整合したLLMからアライメント情報を抽出し、プラグイン・アンド・プレイ方式で非整合なLLMに統合することである。提案手法ではデルタデバッギングを用いて,有効蒸留に必要な知識の重要成分を同定する。有害な質問データセットでは, 平均防御成功率が約14.41%向上し, 51.39%に達した。

関連論文リスト

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models [15.218318229687242]
大規模言語モデルにおける極端なアクティベーションアウトレイアは量子化性能を著しく低下させる。生成を積極的に防止する実用的なガイドラインであるOutlier-Safe Pre-Training (OSP)を紹介した。我々の研究は、アウトリーチはLLMに固有のものではなく、トレーニング戦略の結果であることを示した。
論文参考訳（メタデータ） (2025-06-24T15:03:57Z)
From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment [4.379304291229695]
LLM攻撃技術を応用したトレーニングフリーでモデルに依存しないフレームワークであるRefusal-Aware Adaptive Injection (RAAI)を紹介する。 RAAIは内部の拒絶信号を検出し、事前に定義されたフレーズを適応的に注入することで、有害で流用な完了を誘導する。実験の結果,RAAIはLDMを効果的に脱獄させ,平均で2.15%から61.04%までの有害反応率を増加させた。
論文参考訳（メタデータ） (2025-06-07T08:19:01Z)
RIDE: Enhancing Large Language Model Alignment through Restyled In-Context Learning Demonstration Exemplars [57.6513924960128]
調整調整は、大きな言語モデル(LLM)が倫理的かつ有用な振る舞いを確実にするために不可欠である。本稿では,LLMアライメントを向上させるために,ICL(In-context Learning)を用いた低コストでチューニング不要な手法を提案する。
論文参考訳（メタデータ） (2025-02-17T11:16:19Z)
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.168387024091082]
人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。微調整プロセスを通して安全性を維持することは、依然として大きな課題である。トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T08:40:30Z)
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs [4.194295877935867]
大規模言語モデル(LLM)のための軽量連続学習フレームワークを提案する。本手法はタスク・インクリメンタル・ドメイン・インクリメンタル・ラーニング・セットアップにおいて高い知識保持を実現する。 SuperGLUEベンチマークの実験では、PCAベースのプロンプトチューニングとLoRAが組み合わさって、完全知識保持を維持しながら精度を向上し、モデルのパラメータの1%しか利用していないことが示されている。
論文参考訳（メタデータ） (2025-02-05T06:11:55Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation [4.340880264464675]
大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。 LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。本研究は, テスト段階におけるコスト削減戦略について検討し, 資源利用の制約と徹底的な評価の必要性をバランスづけるものである。
論文参考訳（メタデータ） (2024-07-14T07:21:54Z)
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文参考訳（メタデータ） (2024-06-20T18:37:36Z)
Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment [11.623119255726698]
OpenAIのGPTシリーズ、AnthropicのClaude、MetaのLLaMaのような大きな言語モデル(LLM)は、テキスト生成において顕著な能力を示している。有害なプロンプトに対する感受性は、重大なセキュリティ上の課題を呈している。本稿では,SFT(Supervised Fine-Tuning)やRLHF(Reinforcement Learning from Human Feedback)などのアライメント手法について検討する。
論文参考訳（メタデータ） (2024-06-17T07:46:45Z)
TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文参考訳（メタデータ） (2024-06-11T11:40:12Z)
Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文参考訳（メタデータ） (2024-05-01T15:06:05Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。 FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文参考訳（メタデータ） (2023-02-01T18:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。