論文の概要: CALYREX: Cross-Attention LaYeR EXtended Transformers for System Prompt Anchoring
- arxiv url: http://arxiv.org/abs/2605.09737v1
- Date: Sun, 10 May 2026 20:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.39789
- Title: CALYREX: Cross-Attention LaYeR EXtended Transformers for System Prompt Anchoring
- Title(参考訳): CALYREX: LaYeR Extended Transformers for System Prompt Anchoring
- Authors: Li Lixing,
- Abstract要約: 本稿では,入力とシステム間の相互アテンションを利用してルールを構造的に分離・アンカーするCALYREXを提案する。
トレーニングデータ、バックボーン、パラメータ予算を8Bスケールで制御すると、CALYREXは命令追跡(IFEval)で$+7.4%、マルチターン命令順守で$+16.3%となる。
この利点は、専用ルーティング経路をより効果的に活用するより大規模なモデルと整合して、モデルスケールで拡大しているように見える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) rely on system prompts to establish behavioral constraints and safety rules. Standard causal self-attention treats privileged instructions and untrusted user content with equal structural priority -- a mismatch that leaves models vulnerable to prompt injection and instruction erosion over extended contexts. We propose CALYREX (Cross-Attention LaYeR EXtended transformers), which utilizes cross-attention between input and system prompt to structurally isolate and anchor the rule. A placement ablation on a 1.5B backbone identifies insertion at the final eighth of layers as optimal, confirmed by mechanistic activation analysis showing behavioral constraints are naturally concentrated there. At 8B scale, controlling for training data, backbone, and parameter budget, CALYREX yields $+7.4\%$ on instruction-following (IFEval) and $+16.3\%$ on multi-turn instruction adherence, while reducing many-shot jailbreaking attack success rate by $13\%$. This advantage appears to widen with model scale, consistent with larger models more effectively utilizing the dedicated routing pathway.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、行動制約と安全ルールを確立するためのシステムプロンプトに依存している。
標準的な因果的自己注意は、特権的命令と信頼できないユーザコンテンツを、同じ構造的優先度で扱う -- 拡張コンテキスト上でのインジェクションとインストラクションの侵食に対して、モデルに脆弱性があるミスマッチである。
本稿では、入力とシステム間の相互アテンションを利用して規則を構造的に分離・アンカーするCALYREX(Cross-Attention LaYeR EXtended transformers)を提案する。
1.5Bバックボーン上の配置アブレーションにより,最終8層への挿入が最適であることが確認され,動作制約が自然に集中していることを示す機械的アクティベーション解析によって確認された。
訓練データ、バックボーン、パラメータ予算を8Bスケールで制御すると、CALYREXは命令フォロー(IFEval)で$+7.4\%、マルチターン命令順守で$+16.3\%、多発のジェイルブレイク攻撃の成功率で$13\%となる。
この利点は、専用ルーティング経路をより効果的に活用するより大規模なモデルと整合して、モデルスケールで拡大しているように見える。
関連論文リスト
- Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion [12.201783188544093]
Head-Masked Nullspace Steering (HMNS) は、モデルのデフォルト動作に最も注意を払っているヘッドを特定する。
これは、幾何学的、解釈可能性的インフォームド介入を利用する最初のジェイルブレイク手法である。
論文 参考訳(メタデータ) (2026-04-11T19:19:05Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - Quantifying Self-Preservation Bias in Large Language Models [9.590157416396194]
本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
論文 参考訳(メタデータ) (2026-04-02T15:38:31Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。