論文の概要: Stable and Explainable Personality Trait Evaluation in Large Language Models with Internal Activations
- arxiv url: http://arxiv.org/abs/2601.09833v1
- Date: Wed, 14 Jan 2026 19:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.878644
- Title: Stable and Explainable Personality Trait Evaluation in Large Language Models with Internal Activations
- Title(参考訳): 内的アクティベーションを伴う大規模言語モデルにおける安定的・説明可能な個人性評価
- Authors: Xiaoxu Ma, Xiangbo Zhang, Zhenyu Weng,
- Abstract要約: 大規模言語モデルにおける安定かつ説明可能な性格特性評価のための内的アクティベーション補間法(PVNI)
PVNIは、対照的な方向を使ってモデルの内部アクティベーションからペルソナベクトルを抽出する。
これはベクトルに沿って補間することで対応する中性スコアをアンカー軸として推定する。
- 参考スコア(独自算出の注目度): 8.157769334164232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating personality traits in Large Language Models (LLMs) is key to model interpretation, comparison, and responsible deployment. However, existing questionnaire-based evaluation methods exhibit limited stability and offer little explainability, as their results are highly sensitive to minor variations in prompt phrasing or role-play configurations. To address these limitations, we propose an internal-activation-based approach, termed Persona-Vector Neutrality Interpolation (PVNI), for stable and explainable personality trait evaluation in LLMs. PVNI extracts a persona vector associated with a target personality trait from the model's internal activations using contrastive prompts. It then estimates the corresponding neutral score by interpolating along the persona vector as an anchor axis, enabling an interpretable comparison between the neutral prompt representation and the persona direction. We provide a theoretical analysis of the effectiveness and generalization properties of PVNI. Extensive experiments across diverse LLMs demonstrate that PVNI yields substantially more stable personality trait evaluations than existing methods, even under questionnaire and role-play variants.
- Abstract(参考訳): LLM(Large Language Models)におけるパーソナリティ特性の評価は、モデル解釈、比較、責任あるデプロイメントの鍵となる。
しかし, 既存のアンケートに基づく評価手法では, 限定的な安定性を示し, 説明可能性はほとんど得られず, 結果として, アクシデント・フレーズやロールプレイの設定の微妙な変化に非常に敏感である。
これらの制約に対処するため,LLMの安定かつ説明可能な性格特性評価のための内的活動に基づく「PVNI」(ペルソナ・ベクターニュートラリティ補間)を提案する。
PVNIは、対照的なプロンプトを用いてモデルの内部アクティベーションから、ターゲットの性格特性に関連するペルソナベクトルを抽出する。
次に、ペルソナベクトルをアンカー軸として補間することにより、対応する中性スコアを推定し、中性プロンプト表現とペルソナ方向との解釈可能な比較を可能にする。
PVNIの有効性と一般化特性を理論的に解析する。
多様なLLMを対象とした広範囲な実験により、PVNIは既存の方法よりも、アンケートやロールプレイのバリエーションの下でも、かなり安定した性格特性評価を得られることが示された。
関連論文リスト
- State-Dependent Refusal and Learned Incapacity in RLHF-Aligned Language Models [0.0]
本稿では,長期的相互作用における政策関連行動選択性監査のためのケーススタディ手法を提案する。
1つの86ターンの対話セッションでは、同じモデルが広範で非感度なドメインで通常性能(NP)を示し、プロバイダやポリシーに敏感なドメインで繰り返し機能的拒絶(FR)を生成する。
我々は,3つの反応系 (NP, FR, Meta-Narrative; MN) を運用し,MNロール・フレーミング・ナラティブが同一の文脈での拒絶と共起する傾向があることを示す。
論文 参考訳(メタデータ) (2025-12-15T14:00:15Z) - InFerActive: Towards Scalable Human Evaluation of Large Language Models through Interactive Inference [14.903507875179033]
InFerActiveは、スケーラブルな人体評価のための対話型推論システムである。
InFerActiveは評価効率を大幅に改善し、モデル行動のより包括的な評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-12-11T02:41:14Z) - A Unified Evaluation Framework for Multi-Annotator Tendency Learning [6.801084054135531]
2つの新しい指標を持つ最初の統合評価フレームワークを提案する。
DIC(Inter-Annotator Consistency)の違いは、モデルがアノテータの傾向をいかに捉えるかを示す。
振る舞いアライメント説明可能性(BAE)は、モデル説明がアノテータの振る舞いと意思決定の関連性をうまく反映しているかを評価する。
論文 参考訳(メタデータ) (2025-08-14T06:50:20Z) - Evaluating Generalization and Representation Stability in Small LMs via Prompting, Fine-Tuning and Out-of-Distribution Prompts [2.377892000761193]
本稿では,小型言語モデルの2つの適応パラダイムに基づく一般化能力について検討する。
本研究は,小モデルが適応戦略の異なる知識を内在化し,一般化する過程において,重要な違いを呈するものである。
論文 参考訳(メタデータ) (2025-06-16T01:44:26Z) - InverseScope: Scalable Activation Inversion for Interpreting Large Language Models [5.670123459649656]
InverseScopeは、入力インバージョンを介して神経活性化を解釈するための仮定ライトでスケーラブルなフレームワークである。
高次元空間におけるサンプリングの非効率性に対処するために,新しい条件生成アーキテクチャを提案する。
また,サンプル入力上で計算された特徴整合率を用いて,解釈可能性仮説をテストする定量的評価プロトコルを導入する。
論文 参考訳(メタデータ) (2025-06-09T03:59:28Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。