論文の概要: The Impact of Steering Large Language Models with Persona Vectors in Educational Applications
- arxiv url: http://arxiv.org/abs/2604.07102v1
- Date: Wed, 08 Apr 2026 13:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.568479
- Title: The Impact of Steering Large Language Models with Persona Vectors in Educational Applications
- Title(参考訳): ペルソナベクトルを用いた大規模言語モデルの指導が教育的応用に与える影響
- Authors: Yongchao Wu, Aron Henriksson,
- Abstract要約: アクティベーションベースのステアリングは、推論時に大きな言語モデルをパーソナライズすることができる。
本研究では,アクティベーションステアリングされたペルソナ特性が教育世代と得点に及ぼす影響を体系的に検討した。
- 参考スコア(独自算出の注目度): 2.2917707112773598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation-based steering can personalize large language models at inference time, but its effects in educational settings remain unclear. We study persona vectors for seven character traits in short-answer generation and automated scoring on the ASAP-SAS benchmark across three models spanning two architectures. Persona steering lowers answer quality overall, with much larger effects on open-ended English Language Arts (ELA) prompts than on factual science prompts; interpretive and argumentative tasks are up to 11x more sensitive. On the scoring side, we observe predictable valence-aligned calibration shifts: evil and impolite scorers grade more harshly, while good and optimistic scorers grade more leniently. ELA tasks are 2.5-3x more susceptible to scorer personalization than science tasks, and the Mixture-of-Experts model shows roughly 6x larger calibration shifts than the dense models. To our knowledge, this is the first study to systematically examine the effects of activation-steered persona traits in educational generation and scoring, and the results highlight the need for task-aware and architecture-aware calibration when deploying steered models in educational settings.
- Abstract(参考訳): アクティベーションベースのステアリングは、推論時に大きな言語モデルをパーソナライズすることができるが、教育環境におけるその影響は未だ不明である。
本研究では,2つのアーキテクチャにまたがる3つのモデルを対象としたASAP-SASベンチマークにおいて,短解生成における7つの特性のペルソナベクトルについて検討した。
ペルソナ・ステアリングは、事実科学のプロンプトよりもオープン・エンド・イングリッシュ・アーツ(ELA)のプロンプトに大きな影響を与え、全体の回答品質を下げる。
スコアリング側では、予測可能な値整合校正シフトが観察され、悪と偽のスコアラーはより厳格に、良いスコアラーはより寛大に、楽観的なスコアラーはより寛大に評価される。
ELAタスクは、科学タスクよりもスコアパーソナライズに敏感であり、Mixture-of-Expertsモデルは、密度の高いモデルよりも約6倍のキャリブレーションシフトを示す。
本研究は,学習環境におけるアクティベーション・ステアリング・パーソナ特性の影響を体系的に検証する最初の研究であり,学習環境にステアリング・モデルを展開する際には,タスク・アウェアとアーキテクチャ・アウェア・キャリブレーションの必要性が浮き彫りにされている。
関連論文リスト
- LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models [49.92148175114169]
制御された摂動を7次元にわたって導入することにより,系統的な脆弱性解析を行う。
モデルは、カメラの視点やロボットの初期状態を含む摂動要因に対して極端に敏感である。
驚くべきことに、モデルは言語の変化にほとんど敏感であり、さらなる実験により、モデルは言語命令を完全に無視する傾向があることが明らかになった。
論文 参考訳(メタデータ) (2025-10-15T14:51:36Z) - Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect [3.360832612971853]
本研究では2つの多次元階層文法現象(動詞の時制とアスペクト)の表現と制御について検討する。
両文法的特徴の因果的制御は,3世代にわたる概念的ステアリングを通じて行う。
トピックシフトのような望ましくない副作用を減らすためには, ステアリング強度, 位置, 持続時間が重要なパラメータであることがわかった。
論文 参考訳(メタデータ) (2025-09-15T15:48:09Z) - The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。
その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。
2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文 参考訳(メタデータ) (2025-01-10T00:10:21Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Dynamics of Instruction Fine-Tuning for Chinese Large Language Models [19.832906541004114]
本研究では,中国語大言語モデルの指導指導におけるデータ量,モデルサイズ,データ構築方法の影響を体系的に検討する。
実験では,7bから33bパラメータのモデルを用いて3つの重要な結果を得た。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type
Answers [2.2000998828262652]
本研究では、複数の言語から約1000万の質問応答対からなる大規模なデータセットを使用する。
本研究は, 自動的に評価された回答の精度を向上し, 指導助手の精度と同等の精度を実現する方法を示す。
論文 参考訳(メタデータ) (2022-01-02T12:17:24Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。