論文の概要: Normative Conflicts and Shallow AI Alignment
- arxiv url: http://arxiv.org/abs/2506.04679v1
- Date: Thu, 05 Jun 2025 06:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.568881
- Title: Normative Conflicts and Shallow AI Alignment
- Title(参考訳): 規範的な矛盾と浅すぎるAIアライメント
- Authors: Raphaël Millière,
- Abstract要約: 大規模言語モデル(LLM)のようなAIシステムの進歩は、安全なデプロイメントに対する懸念をますます高めている。
この脆弱性は、既存のアライメントメソッドの根本的な制限を反映している、と私は主張する。
人間の熟考的推論能力が、同じような敵の戦術に対する弾力性を高めることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The progress of AI systems such as large language models (LLMs) raises increasingly pressing concerns about their safe deployment. This paper examines the value alignment problem for LLMs, arguing that current alignment strategies are fundamentally inadequate to prevent misuse. Despite ongoing efforts to instill norms such as helpfulness, honesty, and harmlessness in LLMs through fine-tuning based on human preferences, they remain vulnerable to adversarial attacks that exploit conflicts between these norms. I argue that this vulnerability reflects a fundamental limitation of existing alignment methods: they reinforce shallow behavioral dispositions rather than endowing LLMs with a genuine capacity for normative deliberation. Drawing from on research in moral psychology, I show how humans' ability to engage in deliberative reasoning enhances their resilience against similar adversarial tactics. LLMs, by contrast, lack a robust capacity to detect and rationally resolve normative conflicts, leaving them susceptible to manipulation; even recent advances in reasoning-focused LLMs have not addressed this vulnerability. This ``shallow alignment'' problem carries significant implications for AI safety and regulation, suggesting that current approaches are insufficient for mitigating potential harms posed by increasingly capable AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)のようなAIシステムの進歩は、安全なデプロイメントに対する懸念をますます高めている。
本稿では,LLMの値アライメント問題について検討し,現在のアライメント戦略は誤用を防ぐために基本的に不十分であると主張した。
人間の嗜好に基づく微調整を通じて、LLMの助力、正直性、無害性などの規範を浸透させようとしているにもかかわらず、これらの規範間の紛争を悪用する敵の攻撃には弱いままである。
私は、この脆弱性は既存のアライメント手法の基本的な制限を反映していると論じています。
道徳心理学の研究から、人間が熟考的推論に携わる能力が、同様の敵の戦術に対する弾力性を高めることを示す。
対照的に、LLMは規範的な競合を検出し、合理的に解決する堅牢な能力に欠けており、それらが操作に影響を受けやすいままである。
この‘シャローアライメント’の問題は、AIの安全性と規制に重大な影響をもたらしており、近年のアプローチは、ますます有能なAIシステムによって引き起こされる潜在的な害を軽減できないことを示唆している。
関連論文リスト
- Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models [16.34270329099875]
プレトレーニング中に埋め込まれた有害な知識は、大きな言語モデルのパラメトリックメモリにおいて、信頼できない「暗黒パターン」として持続することを示す。
本研究ではまず,LLMの本質的な倫理的脆弱性を理論的に解析する。
本研究は,分布変化下での意味的コヒーレンス誘導を用いて実験により検証した。
論文 参考訳(メタデータ) (2025-04-07T13:20:17Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models [91.24296813969003]
本稿では,機械学習に因果的手法を取り入れて,信頼性の高いMLの主要な原則間のトレードオフをナビゲートすることを提唱する。
我々は、信頼できるMLと基礎モデルの両方において、複数の競合する目標のバランスをとるためには、因果的アプローチが不可欠であると主張する。
論文 参考訳(メタデータ) (2025-02-28T14:57:33Z) - Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Alignment is not sufficient to prevent large language models from
generating harmful information: A psychoanalytic perspective [8.798946298425635]
大規模言語モデル(LLM)は、多数のアプリケーションの中心であるが、特に有害なコンテンツやバイアスを発生させる上で、重大なリスクに悩まされている。
LLMは, 学習前段階で確立された, 統語的・意味的連続性に対する本質的な欲求と, 人的価値との訓練後の整合性との間に生じる, 同様の根本的な対立に苦しむ。
この対立はLLMを敵の攻撃に弱いものにし、連続性に対するモデルの欲求を強くすることでアライメントの努力を回避し、有害な情報を生み出す。
論文 参考訳(メタデータ) (2023-11-14T19:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。