論文の概要: Investigating and Alleviating Harm Amplification in LLM Interactions
- arxiv url: http://arxiv.org/abs/2606.02423v1
- Date: Mon, 01 Jun 2026 16:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.477424
- Title: Investigating and Alleviating Harm Amplification in LLM Interactions
- Title(参考訳): LLM相互作用におけるハーム増幅の解明と緩和
- Authors: Ruohao Guo, Wei Xu, Alan Ritter,
- Abstract要約: 私たちは、12のリスクカテゴリにまたがるマルチターン調和増幅シナリオのための新しいベンチマークであるHarmAmpを紹介します。
有害なトラジェクトリを予測し,ユーザの真の意図を探索することで介入するプロアクティブモニタであるTrajSafeを提案する。
- 参考スコア(独自算出の注目度): 35.365004091470944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can serve as helpful assistants, yet they can equally function as harm amplifiers that enable malicious users to achieve harmful outcomes beyond their capabilities through extended interactions. This risk manifests along two axes, i.e., democratizing domain expertise that allows novices to produce specialized harmful content, and scaling harmful operations at volumes that manual effort cannot match. Existing works, however, often overlook how LLMs compound harm across multi-turn conversations. We introduce HarmAmp, a new benchmark for multi-turn harm amplification scenarios spanning twelve risk categories. Each scenario is grounded in real-world threats and satisfies rigorous criteria, i.e., substantive amplification, operational specificity, and multi-turn necessity. We further propose TrajSafe, a proactive monitor that anticipates harmful trajectories and intervenes through actions such as probing users' genuine intents and steering the models towards safer completion. Our extensive experiments demonstrate that TrajSafe significantly reduces the harmfulness incurred in multi-turn interactions while preserving a low over-refusal rate and the target model's general capabilities. Our work offers a promising paradigm to alleviate the nuanced safety risks in LLM interactions.
- Abstract(参考訳): 大規模言語モデル(LLM)は有用なアシスタントとして機能するが、悪意のあるユーザが拡張されたインタラクションを通じて、有害な結果を達成するためのハーフアンプとして同じように機能する。
このリスクは2つの軸に沿って現れ、すなわち、初心者が特別な有害なコンテンツを制作できるようなドメインの専門知識を民主化し、手作業では一致しないボリュームで有害な操作をスケーリングする。
しかし、既存の作業は、LLMがマルチターン会話にどのように害を与えるかを見落としていることが多い。
私たちは、12のリスクカテゴリにまたがるマルチターン調和増幅シナリオのための新しいベンチマークであるHarmAmpを紹介します。
各シナリオは現実世界の脅威と厳格な基準、すなわち実体的増幅、運用上の特異性、マルチターンの必要性に基礎を置いている。
さらに,有害なトラジェクトリを予測し,ユーザの真の意図を探索し,より安全な完成に向けてモデルをステアリングする行動を通じて介入するプロアクティブモニタであるTrajSafeを提案する。
実験により,TrajSafeは,低オーバーリフレクション率とターゲットモデルの汎用能力を保ちながら,マルチターン相互作用において生じる有害性を著しく低減することを示した。
我々の研究は、LLM相互作用における不確実な安全リスクを軽減するための、有望なパラダイムを提供する。
関連論文リスト
- Understanding the Effects of Safety Unalignment on Large Language Models [0.5076419064097732]
そこで本研究では,様々なサイズの6つのLLMが,悪意ある,良心的なタスクに及ぼした影響について検討する。
JTとは対照的に、WOアンアライメントモデルの大多数は幻覚の傾向が低く、元の自然言語のパフォーマンスをより良く保ち、最先端の敵攻撃やサイバー攻撃においてより効果的である。
論文 参考訳(メタデータ) (2026-04-02T23:09:43Z) - Pragma-VL: Towards a Pragmatic Arbitration of Safety and Helpfulness in MLLMs [23.5028441939688]
MLLM(Multimodal Large Language Models)は、重要な安全性上の課題である。
現在の手法は、しばしば安全ユーティリティのトレードオフに直面している。過度な注意から良質なクエリを拒否するか、モーダル間相互作用の潜在リスクを見落としている。
Pragma-VL は,MLLM が安全性と利便性を現実的に仲裁できる,エンドツーエンドアライメントアルゴリズムである。
論文 参考訳(メタデータ) (2026-02-28T08:29:29Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-31T18:38:23Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models [37.104276926258095]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの統合により、ユニークな安全性上の課題を提起する。
textbfDREAM(textittextbfDisentangling textbfRisks to textbfEnhance Safety textbfAlignment in textbfMLLMs)を導入する。
論文 参考訳(メタデータ) (2025-04-25T03:54:24Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。