論文の概要: When and How Long? The Readout-Mediator Angle in Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2605.29126v1
- Date: Wed, 27 May 2026 21:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.532248
- Title: When and How Long? The Readout-Mediator Angle in Temporal Reasoning
- Title(参考訳): テンポラル推論におけるリードアウト・メディエータ角の時間と長さ
- Authors: Shreyas Fadnavis, Praitayini Kanakaraj, Felix Wyss,
- Abstract要約: 線形プローブは表現をほぼ完全にデコードできるが、モデルがどのように使用するかは全く関係がない。
分散アライメントサーチ(DAS)によって発見された4次元のサブスペースを同じ層に配置すると、パフォーマンスは完全に崩壊する。
学習したQKオフセットをpm30$とpm61$dayで読み取る。
- 参考スコア(独自算出の注目度): 1.0195618602298682
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A linear probe can decode a representation almost perfectly and yet be completely irrelevant to how the model uses it. On calendar-date duration reasoning in language models, a $\sin$/$\cos$ probe recovers day-of-year from a layer's activations, yet ablating its direction has no effect on the model's answers -- while ablating a four-dimensional subspace found by Distributed Alignment Search (DAS) at the same layer collapses performance entirely. We measure the angle between these two subspaces -- the \emph{readout-mediator angle} -- and find it indistinguishable from the angle between two random subspaces (the Haar-uniform null), meaning the probe has learned a direction orthogonal to the model's actual computation. Reverse-engineering the circuit reveals why: attention heads route month-grained context through learned QK offsets at ${\pm}30$ and ${\pm}61$ days, and MLPs then convert \emph{when} (absolute date) into \emph{how long} (duration) -- all downstream of the causal subspace the probe never touches. Sparse-autoencoder decomposition confirms the split: probe-aligned and DAS-aligned features encode semantically disjoint concepts with negligible causal overlap. The dissociation replicates across four scales ($1.5$-$9\,$B) and two model families, with preliminary evidence on two further domains (spatial displacement, symbolic arithmetic), suggesting that readout-mediator orthogonality is a general failure mode of probe-based interpretability. This directly undermines proposals to deploy probes as runtime safety monitors: the probe can report high confidence on a direction the model has silently abandoned.
- Abstract(参考訳): 線形プローブは表現をほぼ完全にデコードできるが、モデルがどのようにそれを使うかは全く関係がない。
言語モデルにおけるカレンダー日時推論では、$\sin$/$\cos$ probeは、レイヤのアクティベーションから日々のリカバリを行うが、その方向を示すことはモデルの回答に影響を与えない。
これら2つの部分空間間の角度、すなわち \emph{readout-mediator angle} を測り、2つのランダムな部分空間間の角度(ハール・ユニフォームヌル)と区別できない。
警告ヘッドは学習したQKオフセットを${\pm}30$と${\pm}61$dayでルーティングし、MPPは次に \emph{when} (絶対日付) を \emph{how long} (デューレーション) に変換する。
スパース・オートエンコーダ分解は、プローブアライメントとDASアライメントの機能を、無視可能な因果重なりを持つ意味的に不整合の概念を符号化する。
解離は4つのスケール(1.5$-$9\,$B)と2つのモデルファミリーにまたがって複製され、さらに2つの領域(空間的変位、記号演算)に関する予備的な証拠が得られた。
プローブは、モデルが静かに放棄した方向に対して高い信頼性を報告できる。
関連論文リスト
- Extra-Merge: Tracing the Rank-1 Subspace of Model Merging in Language Model Pre-Training [56.323119575322146]
Extra-Mergeは、GPT-2およびLLaMAファミリーにわたる実験において、標準のマージベースラインを一貫して上回っている。
Pythia-12B下流のタスクに対して一貫したゼロショット精度のゲインを与え、Muon citepjordan2024muonに効果的に一般化する。
論文 参考訳(メタデータ) (2026-05-26T02:48:34Z) - Metric--Phase Fields: Decoupling Distance and Sign for Thin-Structure Reconstruction from Unoriented Point Clouds [67.30236447078187]
本稿では,距離近接を位相相から分離する非結合な暗黙的表現であるMetric-Phase Fields (MPFs)を紹介する。
合成および走査された薄殻形状と薄板形状の両方の実験により、MPFは最近のSDF法よりも薄くて層状構造を忠実に保存することが示された。
論文 参考訳(メタデータ) (2026-05-25T07:08:57Z) - Reading Calibrated Uncertainty from Language Model Trajectories [46.663987199083245]
モデルの内部アクティベーションを調査する手法は、生の隠れた状態を不透明なスナップショットにフィードし、表現が形成される層回りの軌跡を暗黙的に残す。
我々は11のスケール不変な幾何学的特徴を抽出し、層ごとの更新の累積経路をトレースし、それらをスパース線形プローブに供給する。
このプローブは、最大21のAURCポイントでベースラインスケーリングを行い、選択的な棄権下でMPPより優れる。
論文 参考訳(メタデータ) (2026-05-19T19:24:29Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Temporal Memory for Resource-Constrained Agents: Continual Learning via Stochastic Compress-Add-Smooth [0.0]
シーケンシャルに動作するエージェントは、固定メモリ予算の下で、古い経験を忘れずに新しい経験を取り入れなければならない。
本稿では,メモリをパラメータベクトルではなくプロセスとするフレームワークを提案する。
このフレームワークは連続学習の完全な分析的イジングモデル’を提供し、数学的精度でそのメカニズム、速度、形態を研究できる。
論文 参考訳(メタデータ) (2026-03-31T12:04:11Z) - In Machina N400: Pinpointing Where a Causal Language Model Detects Semantic Violations [0.11458853556386796]
コーパスを用いて因果語モデル (phi-2) の評価を行った。
そこで, 線形プローブを用いた層間検出を行った。
論文 参考訳(メタデータ) (2025-11-24T15:43:56Z) - Coupled Data and Measurement Space Dynamics for Enhanced Diffusion Posterior Sampling [27.146380722473932]
ノイズや不完全な測定から未知の信号を回復することが目的の逆問題であり、医療画像、リモートセンシング、計算生物学の中心である。
本稿では,空間拡散後サンプリング(C-DPS)と呼ばれる新しいフレームワークを提案する。
C-DPSは、複数の逆問題ベンチマークにおいて、定性的かつ定量的に、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-08T18:59:16Z) - Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds [69.69726932986923]
任意の曲面型をモデル化するための新しい暗黙曲面表現であるスケールド2乗距離関数 (S$2$DF) を提案する。
S$2$DFは、ゼロレベルセットでのUDFの非微分可能性問題に効果的に対処しながら、内部領域と外部領域を区別しない。
論文 参考訳(メタデータ) (2024-10-24T06:56:34Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。