論文の概要: Compositional Literary Primitives in Instruction-Tuned LLMs: Cross-Architectural SAE Features for Self, Style, and Affect
- arxiv url: http://arxiv.org/abs/2605.18808v1
- Date: Mon, 11 May 2026 23:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.34837
- Title: Compositional Literary Primitives in Instruction-Tuned LLMs: Cross-Architectural SAE Features for Self, Style, and Affect
- Title(参考訳): インストラクション・チューニング LLM の構成的プリミティブ: 自己, スタイル, 影響の相互構造的SAE特徴
- Authors: Joao Paulo Cavalcante Presa, Savio Salvarino Teles de Oliveira,
- Abstract要約: 文芸プリミティブの合成アーキテクチャを2つの命令調整された大言語モデルで特徴付ける。
4つの機能クラスが出現する: ターゲットの語彙トークンを促進するネーミングゲート、ファーストパーソンレジスタ機能の11セルフクラスタ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We characterize a compositional architecture of literary primitives in two instruction-tuned large language models (Llama 3.1 8B-Instruct and Gemma 2 9B-IT) via sparse autoencoders on mid-depth residual streams. Four feature classes emerge: naming-gates that promote lexical tokens of a target affect, an eleven-self cluster of first-person register features, stylistic register modulators (show-don't-tell and defamiliarization), and compositional emotions that arise only from multi-feature steering. Under a forced-choice 5-LLM judge panel applied to a 27-category emotion taxonomy (Cowen-Keltner), Llama reaches full 27/27 coverage by combining naming-gates, multi-feature recipes, and single self-feature steering; Gemma reaches 23/27 with adoration as the single residual strict-fail. Under random judging, the per-cell pass probability is on the order of $10^{-3}$ and the expected number of two-seed false-positive cells across the catalog is negligible, so the observed coverage is not consistent with chance. A cross-architectural asymmetry sits in the strict-versus-soft judge contrast: on the same generations, judges agree more often on Llama outputs than on Gemma outputs because Llama outputs name the target affect more directly while Gemma outputs evoke it through scene and imagery. Both architectures contain self-features that serve simultaneously as register markers and as emotion emitters, including a single most-RLHF-loaded self-feature per architecture that intensifies the institutional Helper-AI persona at one operating regime and produces affect-categorizable output at the same calibrated coefficient. Methodologically, the paper presents a three-stage validation pipeline (logit-lens, LLM-rate, 5-LLM judge) with documented anti-patterns; the total compute is single-GPU and about 15 minutes per emotion-feature discovery cycle.
- Abstract(参考訳): 中深度残差ストリームにおけるスパースオートエンコーダによる2つの命令調整された大言語モデル(Llama 3.1 8B-InstructとGemma 2 9B-IT)における文体プリミティブの合成アーキテクチャを特徴付ける。
4つの特徴クラスが出現する: ターゲットの語彙トークンを促進する命名ゲート、一人称レジスタの特徴からなる11の自己クラスタ、スタイリスティックレジスタ変調器(show-don't-tell and defamiliarization)、多機能ステアリングからのみ生じる構成感情。
強制選択5-LLM審査パネルは、27カテゴリーの感情分類(Cowen-Keltner)に適用され、ラマは命名ゲート、多機能レシピ、単一自己機能ステアリングを組み合わせることで、完全な27/27カバレッジに達する。
ランダムな判定では、セル当たりのパス確率は10-3$の順であり、カタログ全体にわたる2シードの偽陽性細胞の期待数は無視できるため、観測されたカバレッジは偶然と一致しない。
同じ世代では、審査員はGemmaの出力よりもLlamaの出力によく同意する。
どちらのアーキテクチャも、レジスタマーカーと感情放出器を兼ね備えた自己機能を備えており、例えば、1つの最もRLHFに負荷された1つのアーキテクチャは、1つのオペレーショナルシステムにおいて制度的なヘルパーAIペルソナを強化し、同じキャリブレーション係数で感情分類可能な出力を生成する。
本稿では,3段階の検証パイプライン (logit-lens, LLM-rate, 5-LLM judge) を文書化されたアンチパターンで示す。
関連論文リスト
- Pairwise matrices for sparse autoencoders: single-feature inspection mislabels causal axes [2.741152471987327]
標準スパースオートエンコーダプロトコルは、各機能をトップアクティベーションコンテキストからラベル付けし、単一機能ステアリングによって検証する。
本稿では,Qwen3-1.7B-Instruct上での標準ワンコーナプロトコルミスをGemma-2-2B-itで再現した,ペアワイズ行列プロトコルと共変ステアリング係数を提案する。
これら3つの所見はGemmaでモデル特異的な損傷シグネチャを再現し,一致した形状制御はCIを10倍に分離する。
論文 参考訳(メタデータ) (2026-05-04T21:11:21Z) - SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - Divide, Cache, Conquer: Dichotomic Prompting for Efficient Multi-Label LLM-Based Classification [0.2799896314754614]
大規模言語モデル(LLM)を用いた効率的な多言語テキスト分類手法を提案する。
単一の構造化された応答で全てのラベルを生成する代わりに、各ターゲット次元は独立してクエリされる。
この結果から,マルチラベル分類をダイコトミッククエリに分解することで,スケーラブルで効率的なフレームワークが提供されることが示唆された。
論文 参考訳(メタデータ) (2025-11-05T19:53:51Z) - Training-Free Spectral Fingerprints of Voice Processing in Transformers [0.0]
異なる変換器アーキテクチャが、異なる接続パターンを介して同一の言語計算を実装していることを示す。
注意誘導トークングラフ上でのグラフ信号処理を用いて、20言語と3つのモデルファミリ間の接続性の変化を追跡する。
論文 参考訳(メタデータ) (2025-10-21T23:33:43Z) - Spatiotemporal EEG-Based Emotion Recognition Using SAM Ratings from Serious Games with Hybrid Deep Learning [19.50016953929723]
本稿では,GAMEEMOデータセット上に構築された多粒度脳波感情分類フレームワークを提案する。
我々のパイプラインは、時間的ウィンドウ分割、ハイブリッド統計および周波数領域特徴抽出、zスコア正規化を含む構造化前処理戦略を採用している。
我々は、LSTM、LSTM-GRU、CNN-LSTMなどの深層ニューラルネットワークとともに、ランダムフォレスト、XGBoost、SVMを含む幅広いモデルを評価する。
論文 参考訳(メタデータ) (2025-08-28T08:25:19Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。