論文の概要: SafeTune: Search-based Harmfulness Minimisation for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.07709v1
- Date: Fri, 08 May 2026 13:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.065505
- Title: SafeTune: Search-based Harmfulness Minimisation for Large Language Models
- Title(参考訳): SafeTune: 大規模言語モデルに対する検索ベースのハームフルネス最小化
- Authors: Giordano d'Aloisio, David Williams, Giusy Annunziata, Zhiwei Fei, Antinisca Di Marco, Federica Sarro,
- Abstract要約: LLM(Large Language Models)が広く採用されると、その応答の潜在的有害性に対する懸念が高まる。
本稿では,多目的探索に基づく有害性軽減手法であるSafeTuneを提案する。
初期評価の結果, SafeTune はQwen3.5 0.8B による有害反応の頻度を著しく低減し, 迅速な応答性を高めることが示唆された。
- 参考スコア(独自算出の注目度): 8.002225341716231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) raises concerns about the potential harmfulness of their responses. In this paper, we first investigate the harmfulness of responses from four general-purpose LLMs. Next, we propose SafeTune, a multi-objective search-based approach to mitigate harmfulness while increasing response relevance through hyperparameter tuning and system prompt engineering. Our initial evaluation shows that SafeTune significantly reduces the rate of harmful responses generated by Qwen3.5 0.8B and increases prompt-response relevance (both with a large effect size). Among the parameters we explore, we also find that encouraging greater repetition in responses is most impactful in reducing harmfulness while increasing relevance.
- Abstract(参考訳): LLM(Large Language Models)が広く採用されると、その応答の潜在的有害性に対する懸念が高まる。
本稿では,4つの汎用LCMからの応答の有害性について検討する。
次に、ハイパーパラメータチューニングとシステムプロンプトエンジニアリングによる応答関連性を高めつつ、有害性を緩和する多目的探索に基づくアプローチであるSafeTuneを提案する。
初期評価の結果, SafeTune はQwen3.5 0.8B による有害応答の速度を著しく低減し, 即時応答性(いずれも大きな効果サイズ)を高めることが示唆された。
調査したパラメータのうち、反応の繰り返しの促進は、関連性を高めながら有害性を減少させるのに最も影響があることもわかりました。
関連論文リスト
- FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation [28.110568600225147]
FINESTは、感性トピックのためのFINE粒度対応評価分類である。
有用性と無害性は、コンテンツ、論理、適切性という3つの主要なカテゴリにまたがるエラーに分解される。
韓国の感応性質問データセットの実験では、FINESTによってガイドされたスコアとエラーに基づく改善パイプラインが、モデル応答を大幅に改善することを示した。
論文 参考訳(メタデータ) (2026-03-04T14:41:54Z) - Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。
ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T19:10:08Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning [12.467239356591238]
FalseRejectは、44の安全関連カテゴリにまたがる構造化された応答を伴う16kの一見有毒なクエリを含む包括的なリソースである。
本稿では,多種多様な複雑なプロンプトを生成するグラフインフォームド・逆多エージェントインタラクション・フレームワークを提案する。
FalseRejectによる教師付き微調整は、全体的な安全性や汎用言語能力を損なうことなく、不要な拒絶を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-12T20:45:25Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。
効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。
GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文 参考訳(メタデータ) (2025-02-09T14:11:30Z) - Semantic Loss Guided Data Efficient Supervised Fine Tuning for Safe Responses in LLMs [18.044879441434432]
有害なプロンプトに対する安全でない応答を生成する大規模言語モデル(LLM)は、彼らのアプリケーションにおいて重要な問題である。
本稿では,この問題を克服し,高品質な人的データを必要とする限界を克服することを目的とする。
負のEarth Mover Distance(EMD)損失と組み合わせたセマンティックコストを用いることで、LLMが安全でない応答を発生させないよう誘導する。
論文 参考訳(メタデータ) (2024-12-07T16:35:14Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - Counterfactual Off-Policy Training for Neural Response Generation [94.76649147381232]
本稿では,反実的推論による潜在的応答の探索を提案する。
対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高逆領域を探索するのに役立つ。
DailyDialogデータセットに関する実証的研究は、我々のアプローチがHREDモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T22:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。