論文の概要: T3C: Test-Time Tensor Compression with Consistency Guarantees
- arxiv url: http://arxiv.org/abs/2601.01299v1
- Date: Sat, 03 Jan 2026 23:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.17787
- Title: T3C: Test-Time Tensor Compression with Consistency Guarantees
- Title(参考訳): T3C: 一貫性保証を備えたテスト時間テンソル圧縮
- Authors: Ismail Lamaakal, Chaymae Yahyati, Yassine Maleh, Khalid El Makkaoui, Ibrahim Ouahbi,
- Abstract要約: T3Cは、ランクと精度を制御可能なデプロイメントノブとして公開する、予算条件の圧縮フレームワークである。
単一のT3Cチェックポイントは、デバイス間での需要に応じて、予測可能な、証明書ベースの精度-レイテンシ-サイズトレードオフを提供する。
- 参考スコア(独自算出の注目度): 1.565870461096057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present T3C, a train-once, test-time budget-conditioned compression framework that exposes rank and precision as a controllable deployment knob. T3C combines elastic tensor factorization (maintained up to a maximal rank) with rank-tied mixed-precision quantization and a lightweight controller that maps a latency/energy/size budget token to per-layer rank/bit assignments; the policy snaps to hardware-aligned profiles and is monotone in the budget. A fast, layerwise consistency certificate, computed from spectral proxies and activation statistics, upper-bounds logit drift and regularizes training, yielding a practical reliability signal with negligible overhead. On ImageNet-1k, T3C shifts the vision Pareto frontier: for ResNet-50 at matched accuracy (\leq 0.5% drop), p50 latency is 1.18ms with a 38MB model, outperforming PTQ-8b (1.44ms, 88MB); for ViT-B/16, T3C reaches 2.30ms p50 with 59MB, improving over strong PTQ/QAT baselines. A single T3C checkpoint therefore provides predictable, certificate-backed accuracy-latency-size trade-offs on demand across devices.
- Abstract(参考訳): 本稿では,T3Cを提案する。T3C,T3C,T3C,T3C,T3C,T3C,T3C,T3C。
T3Cは、弾性テンソル因子化(最大ランクまで維持される)とランクタイドの混合精度量子化と、遅延/エネルギー/サイズ予算トークンを階層単位のランク/ビット割り当てにマッピングする軽量コントローラを組み合わせる。
スペクトルプロキシとアクティベーション統計から計算された高速で階層的に整合性のある証明書は、上位バウンドのロジットドリフトとトレーニングの正規化を実現し、無視可能なオーバーヘッドを持つ実用的な信頼性信号を生成する。
ImageNet-1kでは、T3CはビジョンをParetoフロンティアにシフトする: ResNet-50と一致した精度(\leq 0.5%ドロップ)では、p50レイテンシは38MBモデルで1.18ms、PTQ-8b (1.44ms, 88MB)を上回り、ViT-B/16ではT3Cは2.30ms p50と59MBに到達し、PTQ/QATベースラインを改善した。
したがって、単一のT3Cチェックポイントは、デバイス間での需要に応じて、予測可能で、証明書に裏打ちされた精度-レイテンシー-サイズトレードオフを提供する。
関連論文リスト
- Quant-Trim in Practice: Improved Cross-Platform Low-Bit Deployment on Edge NPUs [0.6138671548064355]
特別なエッジアクセラレータは低ビット量子化に依存しているが、ベンダーコンパイラはスケーリング、クリップング、カーネルサポートが異なる。
同じ浮動小数点(FP)チェックポイントは、バックエンド間で一貫性のない精度が得られるため、実践者はフラグや推論モデルをベンダーフレンドリーなオペレーターサブセットに調整せざるを得ない。
我々は,バックエンドと精度の選択に対してハードウェア中立チェックポイントを生成するトレーニングフェーズであるQuant-Trimを紹介する。
論文 参考訳(メタデータ) (2025-11-19T10:09:02Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - TCUQ: Single-Pass Uncertainty Quantification from Temporal Consistency with Streaming Conformal Calibration for TinyML [0.0]
TCUQは、TinyMLをストリーミングするためのシングルパスでラベルなしの不確実性モニタである。
後部の光信号によって捉えた短地平線時間一貫性を変換する。
ストリーミングコンフォメーション層は、このスコアを予算付きアクセプション/アビスタンスルールに変換する。
論文 参考訳(メタデータ) (2025-08-18T13:12:14Z) - Temporal Conformal Prediction (TCP): A Distribution-Free Statistical and Machine Learning Framework for Adaptive Risk Forecasting [0.0]
TCPは、非定常時系列において、よく校正された予測間隔を構築するための分散フリーフレームワークである。
TCPは、ローリングウィンドウ上に分割等角キャリブレーション層を持つ現代の量子予測器を結合する。
危機風の可視化では、TCP/TCP-RMが膨張し、すぐに間隔帯をボラティリティのスパイクと後退として収縮する。
論文 参考訳(メタデータ) (2025-07-07T20:44:31Z) - Faster and Better LLMs via Latency-Aware Test-Time Scaling [47.3923926808606]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。
既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。
計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文 参考訳(メタデータ) (2025-05-26T07:51:30Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。