論文の概要: Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?
- arxiv url: http://arxiv.org/abs/2505.18672v1
- Date: Sat, 24 May 2025 12:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.582324
- Title: Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?
- Title(参考訳): Representation Interventionは、決定的概念と排他的アライメントを実際に識別するか?
- Authors: Hongzheng Yang, Yongqiang Chen, Zeyu Qin, Tongliang Liu, Chaowei Xiao, Kun Zhang, Bo Han,
- Abstract要約: 表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
- 参考スコア(独自算出の注目度): 73.80382983108997
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Representation intervention aims to locate and modify the representations that encode the underlying concepts in Large Language Models (LLMs) to elicit the aligned and expected behaviors. Despite the empirical success, it has never been examined whether one could locate the faithful concepts for intervention. In this work, we explore the question in safety alignment. If the interventions are faithful, the intervened LLMs should erase the harmful concepts and be robust to both in-distribution adversarial prompts and the out-of-distribution (OOD) jailbreaks. While it is feasible to erase harmful concepts without degrading the benign functionalities of LLMs in linear settings, we show that it is infeasible in the general non-linear setting. To tackle the issue, we propose Concept Concentration (COCA). Instead of identifying the faithful locations to intervene, COCA refractors the training data with an explicit reasoning process, which firstly identifies the potential unsafe concepts and then decides the responses. Essentially, COCA simplifies the decision boundary between harmful and benign representations, enabling more effective linear erasure. Extensive experiments with multiple representation intervention methods and model architectures demonstrate that COCA significantly reduces both in-distribution and OOD jailbreak success rates, and meanwhile maintaining strong performance on regular tasks such as math and code generation.
- Abstract(参考訳): Representation interventionは、Large Language Models(LLMs)の基盤となる概念をコード化した表現を見つけ、修正することを目的としている。
実証的な成功にもかかわらず、介入のための忠実な概念を見つけることができるかどうかは検討されていない。
本研究では,安全アライメントの課題について考察する。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的相手のプロンプトとアウト・オブ・ディストリビューション(OOD)ジェイルブレイクの両方に対して堅牢であるべきである。
線形設定においてLLMの良性機能を損なうことなく有害な概念を消去することは可能であるが、一般の非線形設定では不可能であることを示す。
この問題に対処するため,概念集中(COCA)を提案する。
COCAは、介入すべき忠実な場所を特定する代わりに、トレーニングデータを明示的な推論プロセスで識別する。
本質的に、COCAは有害表現と良性表現の間の決定境界を単純化し、より効果的な線形消去を可能にする。
複数の表現介入手法とモデルアーキテクチャによる大規模な実験により、COCAは分配内とOODジェイルブレイクの成功率の両方を著しく低減し、一方で数学やコード生成といった通常のタスクでは高いパフォーマンスを維持していることが示された。
関連論文リスト
- Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities [23.165174248333212]
視覚言語モデル(VLM)は、安全でない画像や不適切な画像を特定するためにますます応用されている。
テキストや画像など、さまざまなモダリティで提示されたさまざまな安全でない概念を認識できるかどうかはまだ不明である。
VLMの認識(概念認識)とアライメント(倫理的推論)能力の体系的評価を行う。
本稿では,画像から安全でない概念を識別する能力を強化するために,PPOを用いた簡易強化学習(RL)アプローチを提案する。
論文 参考訳(メタデータ) (2025-07-15T10:04:27Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Concept-Level Explainability for Auditing & Steering LLM Responses [12.089513278445704]
ConceptX はモデルに依存しない、概念レベルの説明可能性の方法である。
プロンプト内で意味的にリッチなトークンを識別し、出力のセマンティックな類似性に基づいてそれらの重要性を割り当てる。
偏見の源を明らかにすることによって監査と、LPM応答の有害性を低下させるプロンプトを変更することによって、ステアリングの両方を可能にする。
論文 参考訳(メタデータ) (2025-05-12T14:31:51Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - PaCE: Parsimonious Concept Engineering for Large Language Models [57.740055563035256]
Parsimonious Concept Engineering (PaCE)は、アライメントのための新しいアクティベーションエンジニアリングフレームワークである。
アクティベーション空間において,各原子が意味論的概念に対応する大規模概念辞書を構築する。
本研究では,PaCEが言語能力を維持しつつ,最先端のアライメント性能を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。