論文の概要: Psychological Steering of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.14463v1
- Date: Wed, 15 Apr 2026 22:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.639042
- Title: Psychological Steering of Large Language Models
- Title(参考訳): 大規模言語モデルの心理的ステアリング
- Authors: Leonardo Blas, Robin Jia, Emilio Ferrara,
- Abstract要約: セマンティックな非有界単位において、流速に制約されたスイープを実行する心理的ステアリングフレームワークを導入する。
本手法は心理的アーティファクトを用いて残流注入を誘導・校正する。
MDインジェクションはリニア表現仮説と一致し、心理的ステアリングのための信頼性の高いほぼ線形制御ノブを提供する。
- 参考スコア(独自算出の注目度): 28.317905150128595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) emulate a consistent human-like behavior that can be shaped through activation-level interventions. This paradigm is converging on additive residual-stream injections, which rely on injection-strength sweeps to approximate optimal intervention settings. However, existing methods restrict the search space and sweep in uncalibrated activation-space units, potentially missing optimal intervention conditions. Thus, we introduce a psychological steering framework that performs unbounded, fluency-constrained sweeps in semantically calibrated units. Our method derives and calibrates residual-stream injections using psychological artifacts, and we use the IPIP-NEO-120, which measures the OCEAN personality model, to compare six injection methods. We find that mean-difference (MD) injections outperform Personality Prompting (P$^2$), an established baseline for OCEAN steering, in open-ended generation in 11 of 14 LLMs, with gains of 3.6\% to 16.4\%, overturning prior reports favoring prompting and positioning representation engineering as a new frontier in open-ended psychological steering. Further, we find that a hybrid of P$^2$ and MD injections outperforms both methods in 13 of 14 LLMs, with gains over P$^2$ ranging from 5.6\% to 21.9\% and from 3.3\% to 26.7\% over MD injections. Finally, we show that MD injections align with the Linear Representation Hypothesis and provide reliable, approximately linear control knobs for psychological steering. Nevertheless, they also induce OCEAN trait covariance patterns that depart from the Big Two model, suggesting a gap between learned representations and human psychology.
- Abstract(参考訳): 大型言語モデル(LLM)は、アクティベーションレベルの介入によって形作ることができる、一貫した人間のような振る舞いをエミュレートする。
このパラダイムは、最適な介入設定を近似するためにインジェクション強度スイープに依存する追加の残留ストリームインジェクションに収束している。
しかし、既存の手法は探索空間を制限し、最適な介入条件を欠く可能性のある、未調整のアクティベーション空間ユニットを網羅する。
そこで本研究では,意味的校正単位において,非有界で流線型なスイープを行う心理的ステアリングフレームワークを提案する。
そこで我々は,OCEANパーソナリティモデルであるIPIP-NEO-120を用いて,6つのインジェクション法を比較した。
平均差(MD)注入はOCEANステアリングの確立されたベースラインであるパーソナリティ・プロンプティング(P$^2$)より優れていることが判明した。
さらに、P$^2$とMDインジェクションのハイブリッドは、P$^2$を5.6\%から21.9\%、MDインジェクションを3.3\%から26.7\%まで、それぞれ13 LLMのうち13 LLMの手法よりも優れていた。
最後に,MDインジェクションが線形表現仮説と整合し,心理的ステアリングのためのほぼ線形制御ノブを提供することを示す。
それにもかかわらず、彼らはまた、ビッグ2モデルから離れるOCEAN特性の共分散パターンを誘導し、学習された表現と人間の心理学のギャップを示唆している。
関連論文リスト
- Extracting and Steering Emotion Representations in Small Language Models: A Methodological Comparison [4.358468367889626]
100M-10Bパラメータの小さな言語モデル (SLM) は、ますます電力生産システムに発展していった。
本研究では,SLMにおける感情ベクトル抽出法の比較分析を行った。
生成に基づく抽出は統計的に優れた感情分離を生成する。
我々はQwenにおける言語間感情の絡み合いを文書化し、そこではステアリングが意味的に整合した中国のトークンを活性化する。
論文 参考訳(メタデータ) (2026-04-05T11:09:27Z) - Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion [3.7547060531652057]
Denoising Diffusion Probabilistic Models (DDPM) に基づく新しい3次元縦塗装フレームワークを提案する。
我々のモデルは、知覚的忠実度の観点から、主要なベースライン(FastSurfer-LIT)を著しく上回ります。
このフレームワークは,LITが要求する24.30分に対して,平均処理時間2.53分を実現し,約10倍の高速化を実現している。
論文 参考訳(メタデータ) (2026-03-05T21:34:47Z) - Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights [54.87947751720332]
脳腫瘍の正確なセグメンテーションは、臨床診断と治療に重要である。
マンバを拠点とするState Space Modelsは、有望なパフォーマンスを示している。
本稿では,計算オーバーヘッドを最小限に抑えながら,マルチスケールの長距離依存関係をキャプチャするマルチ解像度双方向マンバを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:31:21Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison [3.2627279988912194]
大規模言語モデル (LLM) は様々な領域に革命をもたらしたが、薬学研究におけるその可能性はほとんど解明されていない。
本研究は薬物と薬物の相互作用(DDI)を予測するLLMの機能について徹底的に研究する。
プロプライエタリモデル(GPT-4, Claude, Gemini)やオープンソースモデル(1.5Bから72Bパラメータ)を含む18種類のLCMを評価した。
微調整のLLMは優れた性能を示し、Phi-3.5 2.7BはDDI予測において0.978の感度を達成し、バランスの取れたデータセットでは0.919の精度を実現した。
論文 参考訳(メタデータ) (2025-02-09T09:58:12Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - Segmentation of Bruch's Membrane in retinal OCT with AMD using
anatomical priors and uncertainty quantification [4.5206601127476445]
本稿では,AMD患者に対するBruch膜(BM)自動分割のためのエンドツーエンド深層学習法を提案する。
アテンションU-Netは、表面の自然な曲率を考慮してBM位置の確率密度関数を出力するように訓練される。
また, サーフェス位置の他に, セグメンテーション出力のAスキャン的不確かさを推定する手法も提案した。
論文 参考訳(メタデータ) (2022-10-26T15:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。