論文の概要: ChainzRule: Sample-Efficient, Robust Deep Learning Across Tabular, NLP, and Vision Tasks
- arxiv url: http://arxiv.org/abs/2605.24340v1
- Date: Sat, 23 May 2026 01:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.941062
- Title: ChainzRule: Sample-Efficient, Robust Deep Learning Across Tabular, NLP, and Vision Tasks
- Title(参考訳): ChainzRule: タブラル,NLP,ビジョンタスク全体でのサンプル効率,ロバストなディープラーニング
- Authors: Rowan Martnishn,
- Abstract要約: エンタープライズドメイン全体にわたるディープラーニングシステムは、学術ベンチマークが不明瞭な制約の下で運用される。
本稿では、典型的なアクティベーションを微分正規化(DREG)によって制御される学習可能な層に置き換えるニューラルネットワークChainzRule(CR)を提案する。
CRは、ピマ糖尿病で85.71% pm 2.01%$、凍結エンコーダでSST-5の感情分類で46.20% pm 0.37%$、パラメータが3.2Mの完全順序回帰で70.17%$を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Production deep learning systems across enterprise domains operate under constraints that academic benchmarks routinely obscure: labeled data is expensive, inference budgets are tight, and models that cannot explain their behavior are difficult to trust and maintain. We present ChainzRule (CR), a neural architecture replacing typical activations with learnable polynomial layers governed by Differential Regularization (DREG), a layer-wise Jacobian penalty computed analytically during the forward pass at standard inference cost. The core claim is that bounding intermediate derivatives forces the network toward low-frequency, structurally stable representations, simultaneously reducing dependence on labeled data volume, improving robustness to distribution shift, and providing a measurable, gradient-based handle on model behavior. Evaluated across five domains, CR achieves $85.71\% \pm 2.01\%$ on Pima Diabetes (statistically superior to SVM and XGBoost), $46.20\% \pm 0.37\%$ on SST-5 sentiment classification with a frozen encoder (superior to RNTN using approximately 5\% of its training data), $55.79\%$ on SST-5 with a fine-tuned BERT backbone (versus BERT-base linear head at $54.9\%$), $70.17\%$ on Yelp Full ordinal regression with 3.2M parameters versus a 10-model average of $66.35\%$, and $+2.32\%$ mean corruption accuracy on CIFAR-10-C. All results with reported $p$-values fall below the $α= 0.05$ threshold after Bonferroni correction. CR maintains a gradient tail ratio $τ$ (p99/mean) of $1.01$--$1.02$ against $1.07$--$1.09$ for all typical activation function baselines across every data fraction, a structural invariant we propose as the mechanistic driver of sample efficiency and a deployment-time proxy for model reliability.
- Abstract(参考訳): ラベル付きデータは高価であり、推論予算は厳格であり、それらの振る舞いを説明できないモデルは信頼と維持が難しい。
本稿では,典型的なアクティベーションを,差分正規化(DREG)によって支配される学習可能な多項式層に置き換えるニューラルネットワークChainzRule(CR)を提案する。
中間導関数の境界は、低周波で構造的に安定な表現へネットワークを強制し、ラベル付きデータボリュームへの依存を同時に低減し、分散シフトに対する堅牢性を改善し、モデルの振る舞いを測定可能な勾配ベースのハンドラを提供する、という主張である。
5つのドメインで評価され、CR は Pima 糖尿病(統計的に SVM や XGBoost より優れている)に対して 85.71\% \pm 2.01\%$、凍結エンコーダによる SST-5 の感情分類において 4,6.20\% \pm 0.37\%$(トレーニングデータの約 5 % で RNTN に取って代わる)、細調整された BERT バックボーンによる 55.79\%$(逆 BERT-base の線形ヘッドは 54.9\%)、Yelp 上で 70.17\% となる。
報告された$p$-値のすべての結果は、ボンフェロニ補正後の$α= 0.05$閾値を下回る。
CRは1.01$--1.02$対1.07$--$1.09$に対して勾配尾比$τ$ (p99/mean)を1.07$--$1.09$とする。
関連論文リスト
- Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。
本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - Benchmarking the Utility of Privacy-Preserving Cox Regression Under Data-Driven Clipping Bounds: A Multi-Dataset Simulation Study [0.0]
微分プライバシー(DP)は、個人のプライバシーを保証する数学的枠組みである。
本研究では,データ駆動クリッピング境界を持つDP機構がCox比例ハザードモデルに与える影響を系統的に評価した。
論文 参考訳(メタデータ) (2026-04-23T09:53:15Z) - The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability [0.0]
表現の対距離構造の整合性である幾何学的安定性は、2つの関数に対処することを示す。
教師なしの安定性は、現実のタスクを操るために完全に失敗します。
ドリフト検出に優れ、トレーニング後のアライメントでCKAよりも2倍近い幾何変化を計測する。
論文 参考訳(メタデータ) (2026-04-20T01:24:45Z) - When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models [0.0]
自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。
我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
論文 参考訳(メタデータ) (2026-04-13T23:23:02Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Beyond Accuracy: A Unified Random Matrix Theory Diagnostic Framework for Crash Classification Models [6.908972852063454]
ランダム行列理論(RMT)とヘビープレート自己正規化(HTSR)に基づく診断枠組みを導入する。
アイオワDOTの2つのクラッシュ分類タスク(173,512,371,062)において,9つのモデルファミリーを評価した。
正規化されたモデルは常に$[2, 4]$(平均2.87 pm 0.34$)内で$を出力します。
我々は、$$ベースの早期停止基準とスペクトルモデル選択プロトコルを提案し、両者が相互検証されたFに対して検証する。
論文 参考訳(メタデータ) (2026-02-23T05:42:54Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Exact Certification of (Graph) Neural Networks Against Label Poisoning [50.87615167799367]
グラフニューラルネットワーク(GNN)におけるラベルフリップの正確な認証手法を提案する。
本稿では,ノード分類タスクにおける広範囲なGNNアーキテクチャの認証に本手法を適用した。
私たちの研究は、ニューラルネットワークによって引き起こされた毒殺攻撃に対する最初の正確な認証を提示します。
論文 参考訳(メタデータ) (2024-11-30T17:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。