論文の概要: Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights
- arxiv url: http://arxiv.org/abs/2506.06404v1
- Date: Fri, 06 Jun 2025 07:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.261306
- Title: Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights
- Title(参考訳): 価値に適応したLLMの意図しないハーム--心理学的・経験的考察
- Authors: Sooyung Choi, Jaehyeok Lee, Xiaoyuan Yi, Jing Yao, Xing Xie, JinYeong Bak,
- Abstract要約: LLM(Large Language Models)の適用範囲は拡大を続けており、人間の価値に合わせてパーソナライズされたLLMへの関心が高まっている。
これらのモデルを個々の値と整合させると、特定の値が有害な情報と相関する可能性があるため、重大な安全性上の懸念が生じる。
本研究は、価値アライメントの「ブラックボックス」に関する知見を提供し、価値アライメントLLMの安全性を高めるためのコンテキスト内アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 30.69754256601697
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The application scope of Large Language Models (LLMs) continues to expand, leading to increasing interest in personalized LLMs that align with human values. However, aligning these models with individual values raises significant safety concerns, as certain values may correlate with harmful information. In this paper, we identify specific safety risks associated with value-aligned LLMs and investigate the psychological principles behind these challenges. Our findings reveal two key insights. (1) Value-aligned LLMs are more prone to harmful behavior compared to non-fine-tuned models and exhibit slightly higher risks in traditional safety evaluations than other fine-tuned models. (2) These safety issues arise because value-aligned LLMs genuinely generate text according to the aligned values, which can amplify harmful outcomes. Using a dataset with detailed safety categories, we find significant correlations between value alignment and safety risks, supported by psychological hypotheses. This study offers insights into the "black box" of value alignment and proposes in-context alignment methods to enhance the safety of value-aligned LLMs.
- Abstract(参考訳): LLM(Large Language Models)の適用範囲は拡大を続けており、人間の価値に合わせてパーソナライズされたLLMへの関心が高まっている。
しかし、これらのモデルを個々の値に合わせると、特定の値が有害な情報と相関する可能性があるため、重大な安全性上の懸念が生じる。
本稿では,これらの課題の背景にある心理的原則を考察し,価値整合性 LLM に関連する特定の安全性リスクを同定する。
私たちの発見は2つの重要な洞察を浮き彫りにした。
1) LLM は非微調整モデルに比べて有害な行動の傾向が強く, 従来の微調整モデルよりも安全性評価のリスクが若干高い。
2) これらの安全性の問題は, 値整合 LLM が, 有害な結果を増幅できるような, 値整合 LLM が本質的にテキストを生成するためである。
詳細な安全性カテゴリを持つデータセットを用いて、心理的仮説によって支持された、価値アライメントと安全性リスクの間に有意な相関関係を見出した。
本研究は、価値アライメントの「ブラックボックス」に関する知見を提供し、価値アライメントLLMの安全性を高めるためのコンテキスト内アライメント手法を提案する。
関連論文リスト
- $\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。
$texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。
マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文 参考訳(メタデータ) (2025-04-28T11:01:08Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。