論文の概要: Adaptive Content Restriction for Large Language Models via Suffix Optimization
- arxiv url: http://arxiv.org/abs/2508.01198v1
- Date: Sat, 02 Aug 2025 05:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.752344
- Title: Adaptive Content Restriction for Large Language Models via Suffix Optimization
- Title(参考訳): 接尾辞最適化による大言語モデルの適応的コンテンツ制限
- Authors: Yige Li, Peihai Jiang, Jun Sun, Peng Shu, Tianming Liu, Zhen Xiang,
- Abstract要約: 大規模言語モデル(LLM)は多様なアプリケーションで大きな成功を収めている。
コンテンツ制限の1つの側面は、LSMが有害なコンテンツを生成するのを防ぐことである。
これらのユースケースにSFTを適用することは、高い計算量、データ、ストレージ要求のために現実的ではない。
- 参考スコア(独自算出の注目度): 22.412884581354938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant success across diverse applications. However, enforcing content restrictions remains a significant challenge due to their expansive output space. One aspect of content restriction is preventing LLMs from generating harmful content via model alignment approaches such as supervised fine-tuning (SFT). Yet, the need for content restriction may vary significantly across user groups, change rapidly over time, and not always align with general definitions of harmfulness. Applying SFT to each of these specific use cases is impractical due to the high computational, data, and storage demands. Motivated by this need, we propose a new task called \textit{Adaptive Content Restriction} (AdaCoRe), which focuses on lightweight strategies -- methods without model fine-tuning -- to prevent deployed LLMs from generating restricted terms for specific use cases. We propose the first method for AdaCoRe, named \textit{Suffix Optimization (SOP)}, which appends a short, optimized suffix to any prompt to a) prevent a target LLM from generating a set of restricted terms, while b) preserving the output quality. To evaluate AdaCoRe approaches, including our SOP, we create a new \textit{Content Restriction Benchmark} (CoReBench), which contains 400 prompts for 80 restricted terms across 8 carefully selected categories. We demonstrate the effectiveness of SOP on CoReBench, which outperforms the system-level baselines such as system suffix by 15\%, 17\%, 10\%, 9\%, and 6\% on average restriction rates for Gemma2-2B, Mistral-7B, Vicuna-7B, Llama3-8B, and Llama3.1-8B, respectively. We also demonstrate that SOP is effective on POE, an online platform hosting various commercial LLMs, highlighting its practicality in real-world scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なアプリケーションで大きな成功を収めている。
しかし、コンテンツの制限を強制することは、そのアウトプットが拡大しているため、依然として大きな課題である。
コンテンツ制限の1つの側面は、教師付き微調整(SFT)のようなモデルアライメントアプローチによってLLMが有害なコンテンツを生成するのを防ぐことである。
しかし、コンテンツ制限の必要性はユーザーグループによって大きく異なり、時間とともに急速に変化し、有害性の一般的な定義と常に一致するとは限らない。
これらのユースケースにSFTを適用することは、高い計算量、データ、ストレージ要求のために現実的ではない。
このニーズに乗じて、デプロイされたLDMが特定のユースケースの制限された用語を生成するのを防ぐための軽量な戦略(モデル微調整なしのメソッド)に焦点を当てた、‘textit{Adaptive Content Restriction}(AdaCoRe)’という新しいタスクを提案する。
AdaCoRe の最初のメソッドである \textit{Suffix Optimization (SOP) を提案し、任意のプロンプトに短い最適化された接尾辞を付加する。
a) 対象のLDMが制限項の集合を生成するのを防止する一方、
b) 生産品質を維持すること。
SOPを含むAdaCoReのアプローチを評価するために、慎重に選択された8つのカテゴリの80の制限項に対して400のプロンプトを含む新しい \textit{Content Restriction Benchmark} (CoReBench) を作成します。
本研究では, Gemma2-2B, Mistral-7B, Vicuna-7B, Llama3-8B, Llama3.1-8Bの平均制限率において, システム接尾辞の15 %, 17 %, 10 %, 9 %, 6 %, システム接尾辞の6 %をそれぞれ上回ったCoReBenchにおけるSOPの有効性を示す。
また,SOP が様々な商用 LLM をホストするオンラインプラットフォームである POE 上で有効であることを示し,実世界のシナリオにおける実用性を強調した。
関連論文リスト
- Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution [37.437830302067326]
Sparsity Evolution Fine-Tuning (SEFT)は、疎大言語モデル(LLM)に特化して設計された新しい手法である。
SEFTは、微調整中に細粒化されたモデルのスパーストポロジーを動的に進化させ、プロセス全体にわたって全体空間を保存する。
各種LLM実験の結果,SEFTは既存のベースラインに比べてメモリ効率と時間効率が優れており,性能が向上することが示された。
論文 参考訳(メタデータ) (2025-05-29T22:17:43Z) - LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities [1.460362586787935]
LiteLMGuard (LLMG) は、量子化されたSLMのリアルタイムかつ迅速な防御を提供する。
LLMGは、深層学習(DL)に基づく即時応答可能性分類タスクとしてプロンプトフィルタリングを形式化する。
LLMGは、ダイレクトインストラクションとジェイルブレイク攻撃戦略を含む有害なプロンプトの87%以上を防御している。
論文 参考訳(メタデータ) (2025-05-08T19:58:41Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Privacy-preserved LLM Cascade via CoT-enhanced Policy Learning [14.51198171282123]
大規模言語モデル(LLM)は、実世界のタスクにまたがる顕著なパフォーマンスのため、デバイス上のアプリケーションにおいて大きな注目を集めている。
我々は,テキストb保存型テキストbfdeferral決定のための,CoT(Chain-of-Thought)強化型テキストbfpolicy学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:09:52Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。
既存のアプローチにはいくつかの欠点がある。
これらの問題に対処するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - EBFT: Effective and Block-Wise Fine-Tuning for Sparse LLMs [68.41135269685576]
スパースLLMを微調整する既存の方法は、しばしば資源集約的な要求と高い再訓練コストに悩まされる。
再構成誤差の最小化に基づくスパルスLLMの微調整のための効率的かつ高速なフレームワークを提案する。
提案手法では, キャリブレーションのための小さなデータセットをサンプリングし, バックプロパゲーションを利用してブロックワイズ復元誤差を反復的に最適化する。
論文 参考訳(メタデータ) (2024-02-19T09:55:32Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。