論文の概要: Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects
- arxiv url: http://arxiv.org/abs/2509.04794v1
- Date: Fri, 05 Sep 2025 04:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.47447
- Title: Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects
- Title(参考訳): LLM評価のためのプローブとしてのパーソナリティ:方法トレードオフと下流効果
- Authors: Gunmay Handa, Zekun Wu, Adriano Koshiyama, Philip Treleaven,
- Abstract要約: 本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
- 参考スコア(独自算出の注目度): 0.6087817758152709
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personality manipulation in large language models (LLMs) is increasingly applied in customer service and agentic scenarios, yet its mechanisms and trade-offs remain unclear. We present a systematic study of personality control using the Big Five traits, comparing in-context learning (ICL), parameter-efficient fine-tuning (PEFT), and mechanistic steering (MS). Our contributions are fourfold. First, we construct a contrastive dataset with balanced high/low trait responses, enabling effective steering vector computation and fair cross-method evaluation. Second, we introduce a unified evaluation framework based on within-run $\Delta$ analysis that disentangles, reasoning capability, agent performance, and demographic bias across MMLU, GAIA, and BBQ benchmarks. Third, we develop trait purification techniques to separate openness from conscientiousness, addressing representational overlap in trait encoding. Fourth, we propose a three-level stability framework that quantifies method-, trait-, and combination-level robustness, offering practical guidance under deployment constraints. Experiments on Gemma-2-2B-IT and LLaMA-3-8B-Instruct reveal clear trade-offs: ICL achieves strong alignment with minimal capability loss, PEFT delivers the highest alignment at the cost of degraded task performance, and MS provides lightweight runtime control with competitive effectiveness. Trait-level analysis shows openness as uniquely challenging, agreeableness as most resistant to ICL, and personality encoding consolidating around intermediate layers. Taken together, these results establish personality manipulation as a multi-level probe into behavioral representation, linking surface conditioning, parameter encoding, and activation-level steering, and positioning mechanistic steering as a lightweight alternative to fine-tuning for both deployment and interpretability.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるパーソナリティ操作は、顧客サービスやエージェントのシナリオにますます適用されていますが、そのメカニズムやトレードオフは明確ではありません。
In-context learning (ICL), parameter-efficient fine-tuning (PEFT), mechanistic steering (MS) を比較検討した。
私たちの貢献は4倍です。
まず、バランスの取れた高/低特性応答を持つ対照的なデータセットを構築し、効率的なステアリングベクトル計算と公正なクロスメソッド評価を可能にした。
次に, MMLU, GAIA, BBQベンチマークを対象とし, ゆがみ, 推論能力, エージェント性能, 人口統計バイアスを比較検討した内燃$\Delta$分析に基づく統一評価フレームワークを提案する。
第3に,トラヒック符号化における表現重複に対処し,良性から開放性を分離する特性浄化技術を開発した。
第4に、メソッド、特性、組み合わせの堅牢性を定量化する3段階の安定性フレームワークを提案し、デプロイ制約下で実践的なガイダンスを提供する。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験は、明確なトレードオフを明らかにしている。
トレートレベルの分析では、オープン性は、ICLに最も抵抗するものであり、中間層を囲むパーソナリティエンコーディングが一意に困難である。
これらの結果は, 行動表現の多段階的探索, 表面条件付け, パラメータエンコーディング, アクティベーションレベルステアリングのリンク, メカニスティックステアリングを, 展開と解釈の両面での微調整の軽量な代替手段として位置づけた。
関連論文リスト
- On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [71.64063986651819]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立されたモデルパターンを混乱させ、専門家データに過度に適合させるリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - PASS: Probabilistic Agentic Supernet Sampling for Interpretable and Adaptive Chest X-Ray Reasoning [31.42306351491176]
PASS(Probabilistic Agentic Supernet Smpling)は、Chest X-Ray(CXR)推論の文脈でこれらの課題に対処する最初のマルチモーダルフレームワークである。
PASSは、マルチツールグラフ上でエージェントを適応的にサンプリングし、解釈可能な確率でアノテートされた決定経路を生成する。
論文 参考訳(メタデータ) (2025-08-14T10:03:47Z) - Towards LLM Guardrails via Sparse Representation Steering [11.710399901426873]
大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:50:25Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Are the Values of LLMs Structurally Aligned with Humans? A Causal Perspective [33.19778298286475]
我々は、潜在因果値グラフが大きな言語モデル(LLM)の値次元の根底にあることを論じ、アライメントトレーニングにもかかわらず、この構造は人間の値システムと大きく異なるままである。
これらの因果値グラフを利用して、ロールベースのプロンプトとスパースオートエンコーダ(SAE)ステアリングという2つの軽量なバリューステアリング手法を導出する。
Gemma-2B-ITとLlama3-8B-ITの実験により,本手法の有効性と可制御性を示した。
論文 参考訳(メタデータ) (2024-12-31T18:12:05Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。
私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。