論文の概要: Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2503.20807v1
- Date: Mon, 24 Mar 2025 20:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:55:11.296330
- Title: Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models
- Title(参考訳): 微調整大言語モデルにおける基本的安全性・能力トレードオフ
- Authors: Pin-Yu Chen, Han Shen, Payel Das, Tianyi Chen,
- Abstract要約: タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 92.38300626647342
- License:
- Abstract: Fine-tuning Large Language Models (LLMs) on some task-specific datasets has been a primary use of LLMs. However, it has been empirically observed that this approach to enhancing capability inevitably compromises safety, a phenomenon also known as the safety-capability trade-off in LLM fine-tuning. This paper presents a theoretical framework for understanding the interplay between safety and capability in two primary safety-aware LLM fine-tuning strategies, providing new insights into the effects of data similarity, context overlap, and alignment loss landscape. Our theoretical results characterize the fundamental limits of the safety-capability trade-off in LLM fine-tuning, which are also validated by numerical experiments.
- Abstract(参考訳): タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
しかし、この能力向上手法が安全性を損なうことが実証されている。
本稿では, 安全性を意識した2つのLLM微調整戦略において, 安全性と能力の相互作用を理解するための理論的枠組みを提案し, データの類似性, コンテキスト重なり, 配向損失景観の影響について新たな知見を提供する。
LLM微調整における安全性・可搬性トレードオフの基本的限界を理論的に評価し,数値実験により検証した。
関連論文リスト
- Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense [44.01174462291761]
大規模言語モデル(LLM)は、様々な領域にまたがって顕著な機能を示した。
アクティベーション近似は 推論効率を追求する 有望な道として現れました
実用性への影響を最小限に抑えながら、アクティベーション近似の安全性は依然として不明である。
論文 参考訳(メタデータ) (2025-02-02T16:25:48Z) - LLM Safety Alignment is Divergence Estimation in Disguise [18.31821426379304]
その結果、アライメント法は、アライメント(優先または安全)とアンアライメント(非優先または有害)の間の分散推定器として機能することを示した。
理論的結果から着想を得た結果,いくつかのアライメント法は分離の点で他の方法よりも優れていることがわかった。
我々は、安全アライメントを高めるために、優先データセットよりもコンプライアンス拒否データセットを提唱する。
論文 参考訳(メタデータ) (2025-02-02T04:09:42Z) - Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - On the Impact of Fine-Tuning on Chain-of-Thought Reasoning [26.11408084129897]
本研究では,大規模言語モデルの推論能力に及ぼす微調整の影響について検討した。
タスク固有の微調整が全体的な推論能力に与える影響、微調整がCoT推論性能に及ぼす影響、そしてCoT推論の忠実性に与える影響に関する疑問に対処する。
論文 参考訳(メタデータ) (2024-11-22T23:54:37Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。