Fugu-MT 論文翻訳(概要): Relational Rank Geometry in Transformers: Detecting and Steering Hidden-State Relation Frames

論文の概要: Relational Rank Geometry in Transformers: Detecting and Steering Hidden-State Relation Frames

arxiv url: http://arxiv.org/abs/2605.29634v1
Date: Thu, 28 May 2026 09:06:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.094152
Title: Relational Rank Geometry in Transformers: Detecting and Steering Hidden-State Relation Frames
Title（参考訳）: 変圧器における関係ランク形状:隠れ状態関係フレームの検出とステアリング
Authors: Mazen Kobrosly,
Abstract要約: トークンコンストラクタ間の関係のランク付き幾何について検討した。 32以上のプロンプトを洗浄・腐食介入法で測定する。クリーンターゲット関係フレームパスは、クリーン・アンサー動作と残差関係幾何を回復する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer hidden states are often interpreted through local or low-order objects: neurons, sparse features, attention heads, residual-stream directions, or activation patches. This paper studies a complementary object: the rank-indexed geometry of relations among token tuples. I use Plucker sign entropy to test whether r-argument relations leave arity-matched orientation signatures in hidden-state space. Across Llama-family 8B, 70B, and 405B checkpoints, true relation tuples show stronger orientation-sign consistency at the expected rank k=r for r=3,...,6 than scrambled tuples under matched random-control audits. Multi-template audits show that the effects survive surface variation, with all tested 405B rows retaining positive expected-rank margins and 8B/70B retaining positive rows with constructor-specific mixed cells. I then ask whether the same relation geometry can be steered. In an edge-grid clean/corrupt intervention assay over 32 prompts, the row/column scaffold and answer format stay fixed while the YES/NO relation map changes, and the corrupt hidden-state relation frame is patched toward clean or placebo targets. In 70B and 405B, clean-targeted relation-frame paths recover clean-answer behavior and residual relation geometry, while centroid-only and equal-norm controls show negligible recovery. Site/order controls further separate marker-site importance from ordered clean-frame geometry: target clean shape and cross-prompt clean shape recover behavior and residual geometry at the marker interface, whereas corrupt-donor transfer, same-site permutation/reflection, wrong-site clean deltas, centroid-only motion, and equal-norm noise fail or remain far below clean-frame paths. The result is a controlled bridge from relation probing to relation-frame intervention: relation rank geometry can be detected, targeted, and behaviorally validated in transformer hidden states.
Abstract（参考訳）: トランスフォーマー隠れ状態は、しばしば、神経細胞、スパース特徴、アテンションヘッド、残ストリーム方向、アクティベーションパッチなど、局所的または低次オブジェクトを通して解釈される。本稿では,トークンタプル間の関係のランクインデクシング幾何について,補完的な対象について検討する。 I use Plucker sign entropy to test whether r-argument relations leave arity-matched orientation signatures in hidden-state space。 Llama- Family 8B, 70B, 405B チェックポイント全体で、真の関係タプルは、一致したランダム制御監査下でのスクランブルされたタプルよりも、r=3, ...,6 の期待ランク k=r において、より強い向きの整合性を示す。マルチテンポレート・監査では,全ての試験対象405B行が有意なランクマージンを維持し,8B/70B行がコンストラクタ特異的混合細胞で陽性な行を維持している。次に、同じ関係幾何学を操れるかどうか尋ねる。 YES/NO関係マップが変更されている間、行/列の足場と応答形式が固定され、汚い隠れ状態関係フレームがクリーンまたはプラセボターゲットに向けてパッチされる。 70Bと405Bでは、クリーンターゲットのリレーション・フレーム・パスがクリーニング・アンサーの挙動と残留リレーション・ジオメトリを回復する一方、セントロイド限定と等ノルム制御は無視できないリカバリを示す。ターゲットのクリーン形状とクロスプロンプトのクリーン形状の復元マーカー界面での挙動と残留形状の復元一方、破損したドナー転移、同部位の置換/反射、間違った場所のクリーンデルタ、セントロイドのみの動き、等ノルムノイズはクリーンフレーム経路よりはるかに下にある。その結果、関係フレームの介入から制御されたブリッジとなる:関係ランクの幾何学は、トランスフォーマーの隠蔽状態において検出され、標的となり、行動的に検証される。

論文の概要: Relational Rank Geometry in Transformers: Detecting and Steering Hidden-State Relation Frames

関連論文リスト