論文の概要: Detecting and Steering LLMs' Empathy in Action
- arxiv url: http://arxiv.org/abs/2511.16699v1
- Date: Mon, 17 Nov 2025 23:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.760025
- Title: Detecting and Steering LLMs' Empathy in Action
- Title(参考訳): LLMの行動に対する共感の検出とステアリング
- Authors: Juan P. Cadile,
- Abstract要約: LLM活性化空間における線形方向としての共感-in-actionについて検討する。
Empathy-in-Actionベンチマークに基づいた対照的なプロンプトを用いて、検出と4つのモデル間のステアリングをテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate empathy-in-action -- the willingness to sacrifice task efficiency to address human needs -- as a linear direction in LLM activation space. Using contrastive prompts grounded in the Empathy-in-Action (EIA) benchmark, we test detection and steering across Phi-3-mini-4k (3.8B), Qwen2.5-7B (safety-trained), and Dolphin-Llama-3.1-8B (uncensored). Detection: All models show AUROC 0.996-1.00 at optimal layers. Uncensored Dolphin matches safety-trained models, demonstrating empathy encoding emerges independent of safety training. Phi-3 probes correlate strongly with EIA behavioral scores (r=0.71, p<0.01). Cross-model probe agreement is limited (Qwen: r=-0.06, Dolphin: r=0.18), revealing architecture-specific implementations despite convergent detection. Steering: Qwen achieves 65.3% success with bidirectional control and coherence at extreme interventions. Phi-3 shows 61.7% success with similar coherence. Dolphin exhibits asymmetric steerability: 94.4% success for pro-empathy steering but catastrophic breakdown for anti-empathy (empty outputs, code artifacts). Implications: The detection-steering gap varies by model. Qwen and Phi-3 maintain bidirectional coherence; Dolphin shows robustness only for empathy enhancement. Safety training may affect steering robustness rather than preventing manipulation, though validation across more models is needed.
- Abstract(参考訳): 我々は, LLM活性化空間における線形方向として, 作業効率を犠牲にして人的ニーズに対処しようとする共感的行動について検討する。
Empathy-in-Action (EIA) のベンチマークでは、Phi-3-mini-4k (3.8B)、Qwen2.5-7B (セーフティトレーニング)、Dolphin-Llama-3.1-8B (アンセンソルド)をまたいで検出とステアリングを行う。
検出: 全てのモデルは最適な層でAUROC 0.996-1.00を示す。
アンセンソルド・ドルフィンは安全訓練されたモデルと一致し、共感の符号化が安全訓練とは無関係に現れることを示す。
Phi-3プローブは、IAの行動スコア(r=0.71, p<0.01)と強く相関する。
クロスモデルプローブ契約は限定的(Qwen: r=-0.06, Dolphin: r=0.18)であり、収束検出にもかかわらずアーキテクチャ固有の実装を明らかにする。
ステアリング: Qwenは、極端な介入で双方向制御とコヒーレンスで65.3%の成功を達成した。
Phi-3も同様のコヒーレンスで61.7%の成功を収めた。
ドルフィンは非対称なステアビリティを示し、94.4%は反共感のステアリングに成功しているが、破滅的な反共感(空の出力、コードアーティファクト)に成功している。
意味: 検出とステアリングのギャップはモデルによって異なる。
QwenとPhi-3は双方向のコヒーレンスを維持している。
安全トレーニングは操作の防止よりも操舵の堅牢性に影響を及ぼす可能性があるが、より多くのモデルにまたがる検証が必要である。
関連論文リスト
- Moral Anchor System: A Predictive Framework for AI Value Alignment and Drift Prevention [0.0]
重要なリスクはバリュードリフトであり、進化するコンテキストや学習ダイナミクス、意図しない最適化によって、AIシステムが一致した値から逸脱する。
我々は,AIエージェントの値ドリフトを検出し,予測し,緩和する新しいフレームワークであるMoral Anchor System(MAS)を提案する。
論文 参考訳(メタデータ) (2025-10-05T07:24:23Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。