論文の概要: Sycophancy as compositions of Atomic Psychometric Traits
- arxiv url: http://arxiv.org/abs/2508.19316v1
- Date: Tue, 26 Aug 2025 11:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.373088
- Title: Sycophancy as compositions of Atomic Psychometric Traits
- Title(参考訳): 原子性心理指標の組成としてのシクロファンシー
- Authors: Shreyans Jain, Alexandra Yost, Amirali Abdullah,
- Abstract要約: 本研究では、感情性、開放性、同意性などの心理測定特性の幾何学的・因果的構成として、シコファンシーをモデル化することを提案する。
この観点は、加算、減算、投射のようなベクトルに基づく解釈および構成的介入を可能にする。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sycophancy is a key behavioral risk in LLMs, yet is often treated as an isolated failure mode that occurs via a single causal mechanism. We instead propose modeling it as geometric and causal compositions of psychometric traits such as emotionality, openness, and agreeableness - similar to factor decomposition in psychometrics. Using Contrastive Activation Addition (CAA), we map activation directions to these factors and study how different combinations may give rise to sycophancy (e.g., high extraversion combined with low conscientiousness). This perspective allows for interpretable and compositional vector-based interventions like addition, subtraction and projection; that may be used to mitigate safety-critical behaviors in LLMs.
- Abstract(参考訳): サイコファシーはLSMにおいて重要な行動リスクであるが、単一因果機構を介して発生する独立した障害モードとして扱われることが多い。
その代わりに、感情、開放性、同意性などの心理測定特性の幾何学的・因果的構成としてモデル化することを提案する。
コントラシティブ・アクティベーション・アダクション(CAA)を用いて、これらの因子に活性化方向をマッピングし、どのように異なる組み合わせが梅毒を引き起こすか(例えば、高い外転と低い良心の組み合わせ)を調べる。
この観点は、加算、減算、投射のような、解釈可能な、および構成的なベクトルベースの介入を可能にする。
関連論文リスト
- Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - Decomposing Interventional Causality into Synergistic, Redundant, and Unique Components [0.0]
我々は、介入因果効果を相乗的で冗長でユニークな構成要素に分解する新しい枠組みを導入する。
本研究では,システム内の変数間で因果力がどのように分散しているかを体系的に定量化する数学的アプローチを開発する。
論文 参考訳(メタデータ) (2025-01-20T12:34:51Z) - Facing Asymmetry -- Uncovering the Causal Link between Facial Symmetry and Expression Classifiers using Synthetic Interventions [7.562215603730798]
ブラックボックスモデルは片側性顔面麻痺患者のパフォーマンスを低下させる。
我々は、因果推論からの洞察を用いて仮説を調査する。
本研究は,ブラックボックスモデルの挙動に影響を及ぼす因果因子を同定するためのケーススタディとして機能する。
論文 参考訳(メタデータ) (2024-09-24T09:53:35Z) - Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse
Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。
本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。
学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文 参考訳(メタデータ) (2024-01-10T02:38:21Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。