論文の概要: Functional Emotions or Situational Contexts? A Discriminating Test from the Mythos Preview System Card
- arxiv url: http://arxiv.org/abs/2604.13466v2
- Date: Thu, 16 Apr 2026 16:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.19394
- Title: Functional Emotions or Situational Contexts? A Discriminating Test from the Mythos Preview System Card
- Title(参考訳): 機能的感情と状況的文脈 : マイソス・プレビュー・システム・カードによる識別テスト
- Authors: Hiranya V. Peiris,
- Abstract要約: Claude Mythos Previewシステムカードは、感情ベクトル、スパースオートエンコーダ機能、アクティベーション動詞をデプロイし、不整合動作中のモデル内部を研究する。
このノートは、公表された結果と質的に一致した2つの仮説を特定する。
どの仮説が正しいかは、感情に基づくモニタリングが危険なモデルの振る舞いを確実に検出するか、体系的に見逃すかを決定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Claude Mythos Preview system card deploys emotion vectors, sparse autoencoder (SAE) features, and activation verbalisers to study model internals during misaligned behaviour. The two primary toolkits are not jointly reported on the most alignment-relevant episodes. This note identifies two hypotheses that are qualitatively consistent with the published results: that the emotion vectors track functional emotions that causally drive behaviour, or that they are a projection of a richer situational-context structure onto human emotional axes. The hypotheses can be distinguished by cross-referencing the two toolkits on episodes where only one is currently reported: most directly, applying emotion probes to the strategic concealment episodes analysed only with SAE features. If emotion probes show flat activation while SAE features are strongly active, the alignment-relevant structure lies outside the emotion subspace. Which hypothesis is correct determines whether emotion-based monitoring will robustly detect dangerous model behaviour or systematically miss it.
- Abstract(参考訳): Claude Mythos Previewシステムカードは、感情ベクトル、スパースオートエンコーダ(SAE)機能、アクティベーション動詞をデプロイし、不整合動作中のモデル内部を研究する。
2つの主要なツールキットは、最もアライメントに関連するエピソードについて共同で報告されていない。
感情ベクトルは動作を因果的に駆動する機能的感情を追跡するか、よりリッチな状況文脈構造を人間の感情軸に投影するものである。
仮説は、現在報告されているエピソードで2つのツールキットを相互参照することで区別することができる。
もし感情プローブが、SAEの特徴が強く活動している間に平坦な活性化を示すなら、アライメント関連構造は感情のサブ空間の外にある。
どの仮説が正しいかは、感情に基づくモニタリングが危険なモデルの振る舞いを確実に検出するか、体系的に見逃すかを決定する。
関連論文リスト
- Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs [0.0]
臨床心理学を基礎とした機械的解釈可能性法による感情回路クレームの臨床的妥当性試験を初めて行った。
我々は2つの解離可能な感情処理機構を発見する。
我々は,大規模言語モデルにおける感情処理のクレームをテストするための厳格な基準として,臨床刺激法を紹介した。
論文 参考訳(メタデータ) (2026-03-15T15:11:45Z) - ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。
ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。
ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文 参考訳(メタデータ) (2026-02-13T08:33:37Z) - Do LLMs "Feel"? Emotion Circuits Discovery and Control [54.57583855608979]
本研究では、感情表現を引き起こす内部メカニズムと、生成したテキストにおける感情の制御について検討する。
これは、大きな言語モデルで感情回路を発見し、検証する最初の体系的な研究である。
論文 参考訳(メタデータ) (2025-10-13T12:24:24Z) - Empaths at SemEval-2025 Task 11: Retrieval-Augmented Approach to Perceived Emotions Prediction [83.88591755871734]
EmoRAGは、SemEval-2025 Task 11, Subtask A: Multi-label Emotion Detectionのためのテキスト中の知覚感情を検出するように設計されたシステムである。
我々は、与えられたテキストスニペットから話者の知覚された感情を予測することに集中し、喜び、悲しみ、恐怖、怒り、驚き、嫌悪感などの感情をラベル付けする。
論文 参考訳(メタデータ) (2025-06-04T19:41:24Z) - Mechanistic Interpretability of Emotion Inference in Large Language Models [16.42503362001602]
感情表現は大規模言語モデルにおいて特定の領域に機能的に局所化されていることを示す。
我々は,環境刺激の評価から感情が出現することを示すための認知的評価理論を導いた。
この研究は、因果的に介入し、感情的なテキスト生成を正確に形作る新しい方法を強調している。
論文 参考訳(メタデータ) (2025-02-08T08:11:37Z) - Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。
EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。
分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文 参考訳(メタデータ) (2023-11-16T06:20:13Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。