論文の概要: The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability
- arxiv url: http://arxiv.org/abs/2604.17698v2
- Date: Sat, 25 Apr 2026 22:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.882836
- Title: The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability
- Title(参考訳): 幾何学的カナリア: 立体性予測と表現安定性によるドリフトの検出
- Authors: Prashant C. Raju,
- Abstract要約: 表現の対距離構造の整合性である幾何学的安定性は、2つの関数に対処することを示す。
教師なしの安定性は、現実のタスクを操るために完全に失敗します。
ドリフト検出に優れ、トレーニング後のアライメントでCKAよりも2倍近い幾何変化を計測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy ($ρ= 0.89$-$0.97$) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial $ρ= 0.62$-$0.76$). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks ($ρ\approx 0.10$), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly $2\times$ greater geometric change than CKA during post-training alignment (up to $5.23\times$ in Llama) while providing earlier warning in 73\% of models and maintaining a $6\times$ lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.
- Abstract(参考訳): 言語モデルの信頼性の高いデプロイには、2つの機能が必要ですが、共通の幾何学的基盤を共有します。
表現の対距離構造の整合性である幾何学的安定性が両立していることが示される。
タスク整合の幾何安定性を測定するシェシャ変種は、35-69の埋め込みモデルと3つのNLPタスクにまたがる線形ステアビリティ(ρ= 0.89$-$0.97$)を予測し、クラス分離性を超えたユニークな分散(partial $ρ= 0.62$-$0.76$)をキャプチャする。
教師なしの安定性は、現実のタスクを操るために完全に失敗する(ρ\approx 0.10$)。
しかし、教師なしの安定性はドリフト検出において優れており、訓練後のアライメントにおいてCKAよりも2ドル近い幾何的変化(ラマで最大5.23ドル)を計測し、73パーセントのモデルで早期の警告を提供し、プロクリストよりも6ドル低い誤報率を維持している。
同時に、監督と教師なしの安定性は、LCMデプロイメントライフサイクルの補完的な診断を形成している。
関連論文リスト
- Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - The Geometry of Robustness: Optimizing Loss Landscape Curvature and Feature Manifold Alignment for Robust Finetuning of Vision-Language Models [33.10473765967503]
一般化保存法はID/OOD性能を維持するが、敵攻撃に弱いモデルを残す。
我々の重要な洞察は、ロバスト性トレードオフは、パラメータ空間における鋭く異方性のある最小値と、摂動下で変形する不安定な特徴表現の2つの幾何学的失敗に由来するということである。
本稿では,パラメータ空間の曲率と特徴空間の不変性を協調的に正規化する,統一的な微調整フレームワークGRACEを提案する。
論文 参考訳(メタデータ) (2026-03-28T05:22:00Z) - Robustness, Cost, and Attack-Surface Concentration in Phishing Detection [0.0]
設計されたウェブサイト上に構築されたフィッシング検出器は、i.d.評価の下でほぼ完璧な精度で機能する。
我々はこのギャップを、明示的な攻撃予算の下で個別の単調な特徴編集をモデル化するコスト認識回避フレームワークを通じて研究する。
論文 参考訳(メタデータ) (2026-03-19T17:53:32Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Geometric Stability: The Missing Axis of Representations [0.0]
我々は$geometric$ $stabilityを導入し、摂動下での表現幾何学の信頼性を定量化する。
7つの領域における2,463以上の構成から、安定性と類似性は実証的に非相関性を示す。
安全監視のため、安定性は機能的な幾何学的カナリアとして機能し、CKAよりも2ドル近い速度で構造的なドリフトを検出する。
モデル選択においては、安定性は転送可能性から解離し、転送最適化が生じる幾何学的税制を明らかにする。
論文 参考訳(メタデータ) (2026-01-14T05:15:22Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Towards Stable 3D Object Detection [64.49059005467817]
安定度指数(SI)は3次元検出器の安定性を信頼度、ボックスの定位、範囲、方向で総合的に評価できる新しい指標である。
モデルの安定性向上を支援するため,予測一貫性学習(PCL)と呼ばれる,汎用的で効果的なトレーニング戦略を導入する。
PCLは本質的に、異なるタイムスタンプと拡張の下で同じオブジェクトの予測一貫性を促進し、検出安定性を向上させる。
論文 参考訳(メタデータ) (2024-07-05T07:17:58Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。