論文の概要: Supervised Learning Has a Necessary Geometric Blind Spot: Theory, Consequences, and Minimal Repair
- arxiv url: http://arxiv.org/abs/2604.21395v2
- Date: Mon, 27 Apr 2026 10:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.92819
- Title: Supervised Learning Has a Necessary Geometric Blind Spot: Theory, Consequences, and Minimal Repair
- Title(参考訳): 幾何学的ブラインドスポットが必要な教師付き学習:理論、結果、そして最小の修復
- Authors: Vishal Rajput,
- Abstract要約: 教師付き損失を最小限に抑えるエンコーダはトレーニングラベルと相関する方向に沿って非ゼロ感度を保たなければならないことを示す。
これを教師付き学習の幾何学的盲点と呼んでいる。
- 参考スコア(独自算出の注目度): 0.5854803320592717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PGD adversarial training, the standard robustness method, can reduce Jacobian Frobenius norm yet worsen clean-input geometry (e.g., TDI 1.336 vs. ERM 1.093). We show this is not an implementation artifact but a theorem-level consequence of supervised learning. We prove that any encoder minimizing supervised loss must retain non-zero sensitivity along directions correlated with training labels, including directions that are nuisance at test time. This holds across proper scoring rules, architectures, and dataset sizes. We call this the geometric blind spot of supervised learning. This theorem unifies four empirical phenomena often treated separately: non-robust features, texture bias, corruption fragility, and the robustness-accuracy tradeoff. It also explains why suppressing sensitivity in one adversarial direction can redistribute sensitivity elsewhere. We introduce Trajectory Deviation Index (TDI), a diagnostic of geometric isotropy. Unlike CKA, intrinsic dimension, or Jacobian Frobenius norm alone, TDI captures the failure mode above. In our experiments, PGD attains low Frobenius norm but high TDI, while PMH attains the lowest TDI with one additional training term and no architectural changes. Across seven tasks, BERT/SST-2, and ImageNet ViT-B/16 (backbone family underlying CLIP/DINO/SAM), the blind spot is measurable and repairable. It appears at foundation-model scale, worsens with model scale and task-specific fine-tuning, and is substantially reduced by PMH. PMH also leads on non-Gaussian corruption types (blur/brightness/contrast) without corruption-specific training.
- Abstract(参考訳): 標準ロバスト性法であるPGD逆行訓練は、ヤコビアン・フロベニウスノルムを減少させるが、クリーン入力幾何学(例えば、TDI 1.336 vs. ERM 1.093)を悪化させる。
これは実装アーティファクトではなく、教師付き学習による定理レベルの結果であることを示す。
教師付き損失を最小限に抑えるエンコーダはトレーニングラベルと相関する方向に沿って非ゼロ感度を保たなければならない。
これは適切なスコアリングルール、アーキテクチャ、データセットサイズにまたがる。
これを教師付き学習の幾何学的盲点と呼んでいる。
この定理は、しばしば別々に扱われる4つの経験的現象を統一する。
また、ある対向方向の感度を抑えることが、他の場所での感度を再分配する理由も説明されている。
幾何学的等方性の診断である軌道偏差指数(TDI)を導入する。
CKA、内在次元、またはヤコビアン・フロベニウス・ノルムとは異なり、TDIは上記の障害モードをキャプチャする。
実験では、PGDはフロベニウスノルムは低く、TDIは高いが、PMHは1つの追加の訓練期間とアーキテクチャ上の変化のない最低のTDIに達する。
BERT/SST-2とImageNet ViT-B/16(CLIP/DINO/SAMのバックボーンファミリー)の7つのタスクで、盲点が測定可能で、修復可能である。
基礎モデルスケールのように見えるが、モデルスケールとタスク固有の微調整により悪化し、PMHにより大幅に減少する。
PMHはまた、非ガウスの汚職タイプ(青/明/コントラスト)を汚職固有の訓練なしで導く。
関連論文リスト
- Geometric Metrics for MoE Specialization: From Fisher Information to Early Failure Detection [13.891522069967507]
本稿では,MoE動的特殊化の最初の厳密な特徴を提供する情報幾何学的フレームワークを提案する。
我々の重要な洞察は、フィッシャー情報量計を備えた確率単純度に基づいて、専門家のルーティング分布が進化することである。
論文 参考訳(メタデータ) (2026-04-16T00:28:41Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - The Confidence Manifold: Geometric Structure of Correctness Representations in Language Models [1.45309944076563]
5つのアーキテクチャファミリから9つのモデルにまたがる正しさの表現を特徴付ける。
我々はアクティベーションステアリングによる因果性評価を行った。
正確性信号は内部に存在するが、出力では表現されない。
論文 参考訳(メタデータ) (2026-02-08T23:27:10Z) - Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning [51.13280433665446]
大規模言語モデル(LLM)は、一般的な数学的推論では優れているが、専門的な技術的数学では破滅的に失敗する。
無線通信では、問題は情報理論的境界の正確な操作を必要とするが、最先端のモデルでさえ有能な性能を達成するのに苦労する。
本稿では、コンパクトモデル(0.5B-7Bパラメータ)がドメイン固有強化学習により、より大きなモデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2025-09-27T09:58:03Z) - On the Variance, Admissibility, and Stability of Empirical Risk Minimization [57.63331017830154]
経験的リスク最小化(ERM: Empirical Risk Minimization)は、平均2乗誤差で最小限の最適値が得られる。
比較的軽度な仮定の下では、ERMの準最適性はその大きなバイアスによるものでなければならない。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。