論文の概要: Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?
- arxiv url: http://arxiv.org/abs/2505.18672v1
- Date: Sat, 24 May 2025 12:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.582324
- Title: Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?
- Title(参考訳): Representation Interventionは、決定的概念と排他的アライメントを実際に識別するか?
- Authors: Hongzheng Yang, Yongqiang Chen, Zeyu Qin, Tongliang Liu, Chaowei Xiao, Kun Zhang, Bo Han,
- Abstract要約: 表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
- 参考スコア(独自算出の注目度): 73.80382983108997
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Representation intervention aims to locate and modify the representations that encode the underlying concepts in Large Language Models (LLMs) to elicit the aligned and expected behaviors. Despite the empirical success, it has never been examined whether one could locate the faithful concepts for intervention. In this work, we explore the question in safety alignment. If the interventions are faithful, the intervened LLMs should erase the harmful concepts and be robust to both in-distribution adversarial prompts and the out-of-distribution (OOD) jailbreaks. While it is feasible to erase harmful concepts without degrading the benign functionalities of LLMs in linear settings, we show that it is infeasible in the general non-linear setting. To tackle the issue, we propose Concept Concentration (COCA). Instead of identifying the faithful locations to intervene, COCA refractors the training data with an explicit reasoning process, which firstly identifies the potential unsafe concepts and then decides the responses. Essentially, COCA simplifies the decision boundary between harmful and benign representations, enabling more effective linear erasure. Extensive experiments with multiple representation intervention methods and model architectures demonstrate that COCA significantly reduces both in-distribution and OOD jailbreak success rates, and meanwhile maintaining strong performance on regular tasks such as math and code generation.
- Abstract(参考訳): Representation interventionは、Large Language Models(LLMs)の基盤となる概念をコード化した表現を見つけ、修正することを目的としている。
実証的な成功にもかかわらず、介入のための忠実な概念を見つけることができるかどうかは検討されていない。
本研究では,安全アライメントの課題について考察する。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的相手のプロンプトとアウト・オブ・ディストリビューション(OOD)ジェイルブレイクの両方に対して堅牢であるべきである。
線形設定においてLLMの良性機能を損なうことなく有害な概念を消去することは可能であるが、一般の非線形設定では不可能であることを示す。
この問題に対処するため,概念集中(COCA)を提案する。
COCAは、介入すべき忠実な場所を特定する代わりに、トレーニングデータを明示的な推論プロセスで識別する。
本質的に、COCAは有害表現と良性表現の間の決定境界を単純化し、より効果的な線形消去を可能にする。
複数の表現介入手法とモデルアーキテクチャによる大規模な実験により、COCAは分配内とOODジェイルブレイクの成功率の両方を著しく低減し、一方で数学やコード生成といった通常のタスクでは高いパフォーマンスを維持していることが示された。
関連論文リスト
- Concept-Level Explainability for Auditing & Steering LLM Responses [12.089513278445704]
ConceptX はモデルに依存しない、概念レベルの説明可能性の方法である。
プロンプト内で意味的にリッチなトークンを識別し、出力のセマンティックな類似性に基づいてそれらの重要性を割り当てる。
偏見の源を明らかにすることによって監査と、LPM応答の有害性を低下させるプロンプトを変更することによって、ステアリングの両方を可能にする。
論文 参考訳(メタデータ) (2025-05-12T14:31:51Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - PaCE: Parsimonious Concept Engineering for Large Language Models [57.740055563035256]
Parsimonious Concept Engineering (PaCE)は、アライメントのための新しいアクティベーションエンジニアリングフレームワークである。
アクティベーション空間において,各原子が意味論的概念に対応する大規模概念辞書を構築する。
本研究では,PaCEが言語能力を維持しつつ,最先端のアライメント性能を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。