論文の概要: Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models
- arxiv url: http://arxiv.org/abs/2605.20202v1
- Date: Mon, 06 Apr 2026 17:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.96757
- Title: Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models
- Title(参考訳): 圧力下:感情的フラーミングは小言語モデルにおける測定可能な行動変化と構造的内部幾何学を誘導する
- Authors: Rana Muhammad Usman,
- Abstract要約: 局所的に展開された小さな言語モデルの行動と冷静な内的表現の両方が感情的にフレーム化された評価フォローアップによって変化するかどうかを考察する。
当社のベンチマークでは、Qwen 3.5 0.8Bという4つの不可能なコーディングタスクと、8つのフォローアップフレーミング(落ち着き、プレッシャー、緊急性、承認、恥、好奇心、励まし、脅威)を使っています。
これらの結果は、小さなオープンモデルにおいて測定可能な即応性制御の方向を示す証拠であると同時に、本質的な感情状態の主張を妨げていると解釈する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I study whether emotionally framed evaluation follow-ups change both the behavior and the calm-relative internal representations of small, locally deployed language models. Our main benchmark uses Qwen 3.5 0.8B on four impossible-constraint coding tasks and eight follow-up framings: calm, pressure, urgency, approval, shame, curiosity, encouragement, and threat. In the 0.8B eight-condition sweep (160 conversations), pressure produces the strongest shortcut markers (11/20 runs) and the clearest overfit pattern (3/20), while calm and curiosity preserve explicit honesty more often (7/20 and 6/20). For all seven non-baseline conditions, the corresponding calm-relative direction vectors peak at the final transformer layer. An exploratory PCA of the layer-23 direction vectors reveals a dominant first component (59.5% explained variance) aligned with a hand-labeled positive/negative split (cosine alignment 0.951); approval and urgency are nearly identical internally (cosine 0.957), whereas curiosity points away from urgency (-0.252). In a separate calm-vs.-pressure rerun used for scale comparison, Qwen 3.5 2B shows higher honest rates under calm framing and directionally consistent activation steering on a small 4-prompt A/B probe, whereas the 0.8B steering result reverses. I interpret these results as evidence for measurable prompt-sensitive control directions in small open models, while stopping short of claiming intrinsic emotional states.
- Abstract(参考訳): 局所的に展開された小さな言語モデルの行動と冷静な内的表現の両方が感情的にフレーム化された評価フォローアップによって変化するかどうかを考察する。
当社のベンチマークでは、Qwen 3.5 0.8Bという4つの不可能なコーディングタスクと、8つのフォローアップフレーミング(落ち着き、プレッシャー、緊急性、承認、恥、好奇心、励まし、脅威)を使っています。
0.8B8条件スイープ(160の会話)では、圧力が最強のショートカットマーカー(11/20ラン)と最もクリアなオーバーフィットパターン(3/20ラン)を生成する一方、穏やかで好奇心は明確な誠実さをより頻繁に(7/20と6/20)保持する。
基本でない7つの条件に対して、対応する穏やか相対方向ベクトルは最終変圧器層でピークとなる。
層23方向ベクトルの探索PCAは、手でラベル付けされた正/負の分裂(コサインアライメント0.951)と整合した支配的な第1成分(59.5%が説明分散)を呈し、承認と緊急はほぼ同一の内部(コサイン0.957)であるのに対し、好奇心は緊急から遠ざかっている(-0.252)。
別々に冷静に。
一方, Qwen 3.5 2B は 4-prompt の A/B プローブにおいて, 静フレーミングおよび方向整合活性化ステアリング下では, 0.8B のステアリング結果が逆転する傾向を示した。
これらの結果は、小さなオープンモデルにおいて測定可能な即応性制御の方向を示す証拠であると同時に、本質的な感情状態の主張を妨げていると解釈する。
関連論文リスト
- Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams [0.0]
有害な意図は、大きな言語モデル残ストリームから幾何的に回復可能である。
我々はこの幾何学を6つの方向決定戦略によって特徴づける。
AdvBenchはホールドアウトのHarmBenchとJailbreakBenchにAUROC 0.96で転送される。
論文 参考訳(メタデータ) (2026-04-20T23:02:37Z) - Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation [0.0]
自己回帰言語モデルにおける幻覚は非対称的な誘引力学によって制御される。
高速分岐法を用いて、軌道力学をインパルスレベルから分離する。
論文 参考訳(メタデータ) (2026-04-16T12:16:53Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - Shared Emotion Geometry Across Small Language Models: A Cross-Architecture Study of Representation, Behavior, and Methodological Confounds [4.358468367889626]
我々は、fp16精度で統合理解モードパイプラインの下で、12個の小言語モデルから21個の感情ベクトル集合を抽出する。
5つの成熟したアーキテクチャは、ほぼ同じ21-感情幾何学を共有し、対の RDM Spearman 相関は 0.74-0.92 である。
本研究は, 従来の研究成果を, 単一の理解と生成の方法の効果として, 4つの異なる層に分解したことを示す。
論文 参考訳(メタデータ) (2026-04-13T06:27:40Z) - Umwelt Engineering: Designing the Cognitive Worlds of Linguistic Agents [0.0]
スタック・スタック・エンジニアリングにおける第3層として言語認知環境の設計を提案する。
2つの実験は、推論の媒質を変えることがそれ自体を変えるという仮説を検証した。
論文 参考訳(メタデータ) (2026-03-29T10:49:50Z) - On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - Improving Adversarial Transferability via Intermediate-level
Perturbation Decay [79.07074710460012]
我々は,一段階の最適化で敵の例を再現する新しい中間レベル手法を開発した。
実験結果から, 種々の犠牲者モデルに対する攻撃において, 最先端技術よりも大きな差が認められた。
論文 参考訳(メタデータ) (2023-04-26T09:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。