論文の概要: Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting
- arxiv url: http://arxiv.org/abs/2603.07448v1
- Date: Sun, 08 Mar 2026 03:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.598094
- Title: Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting
- Title(参考訳): 離散的トークン化は、キャリブレーションされたタブラルフォアキャスティングのためのトランスフォーマーをアンロックする
- Authors: Yael S. Elmatad,
- Abstract要約: トークンライザは わざとシンプルに 離散化された語彙を使います 基本的なトークン化でさえ 注目の力を解き放ちます
600Kエンティティ(5M)では、XGBoostを10.8%調整し(35.94sと40.31sの中央値MAE)、適応シグマチェックポイントでKS45を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient boosting still dominates Transformers on tabular benchmarks. Our tokenizer uses a deliberately simplistic discretized vocabulary so we can highlight how even basic tokenization unlocks the power of attention on tabular features, yet it already outperforms tuned gradient boosting when combined with Gaussian smoothing. Our solution discretizes environmental context while smoothing labels with adaptive Gaussians, yielding calibrated PDFs. On 600K entities (5M training examples) we outperform tuned XGBoost by 10.8% (35.94s vs 40.31s median MAE) and achieve KS=0.0045 with the adaptive-sigma checkpoint selected to minimize KS rather than median MAE. Ablations confirm architecture matters: losing sequential ordering costs about 2.0%, dropping the time-delta tokens costs about 1.8%, and a stratified calibration analysis reveals where miscalibration persists.
- Abstract(参考訳): グラフベンチマークでは、グラディエント・ブースティングがトランスフォーマーを支配している。
我々のトークンライザは、故意に簡素な離散化語彙を用いており、ベーシックなトークン化でさえ、タブ形式の特徴に注意の力を解き放つことを強調できますが、ガウス的滑らか化と組み合わせた場合、チューニングされた勾配上昇よりも優れています。
本手法は,適応ガウスでラベルを平滑化しながら環境コンテキストを識別し,校正されたPDFを生成する。
600Kエンティティ(5Mのトレーニング例)では、調整されたXGBoostを10.8%(35.94と40.31の中央値MAE)で上回り、中央値MAEよりもKSを最小にするために選択された適応シグマチェックポイントでKS=0.0045を達成する。
逐次順序付けコストが約2.0%減少し、時間差トークンが約1.8%減少し、階層化された校正分析により、誤校正が持続する場所が明らかになった。
関連論文リスト
- OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration [4.771742494878726]
OUSACは分散トランスフォーマー(DiT)をシステム最適化により高速化するフレームワークである。
我々の重要な洞察は、可変誘導スケールがスパース計算を可能にすることである。
Stage-1では、どのタイムステップをスキップするか、どのガイダンススケールを使うかを共同で最適化するために進化的アルゴリズムを採用している。
ステージ2では、変圧器ブロックごとの校正作業を調整するアダプティブなランクアロケーションが導入されている。
論文 参考訳(メタデータ) (2025-12-16T05:11:54Z) - Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression [0.0]
2つの適応圧縮技術は、アルゴリズムの革新とハードウェア対応の最適化を統合するために提案されている。
イベントベースの視覚タスクでは、STTFは平均トークン数を84%削減する。
ANCは低モーションシーンでFLOPを最大90%カットする。
論文 参考訳(メタデータ) (2025-11-23T15:43:00Z) - Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals [6.5422130090856925]
セルフトランケーションBest-of-N (ST-BoN) は、未進行の経路を早期に切り離すことによってこれを緩和する。
本稿では,KL-Adjusted Pruned Path Algorithm (KAPPA)を提案する。
論文 参考訳(メタデータ) (2025-11-01T20:41:22Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - AnTKV: Anchor Token-Aware Sub-Bit Vector Quantization for KV Cache in Large Language Models [27.605195979962474]
量子化は、大規模言語モデルにおけるKVキャッシュのメモリフットプリントを削減するために、効果的で軽量なソリューションとして登場した。
我々は、アンカートークン対応ベクトル量子化を利用してKVキャッシュを圧縮するデュアルステージフレームワークAnTKVを提案する。
実験により、AnTKVは従来の手法と4ビットで一致またはオーバーし、超低ビット量子化下でのパープレキシティを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-06-24T10:45:48Z) - Token-based Decision Criteria Are Suboptimal in In-context Learning [2.2973949268669562]
In-Context Learning (ICL) は通常、手動で選択したラベルトークンの出力確率から分類基準を利用する。
トークン確率を放棄し,LMの最後の隠蔽状態に最も近いセントロイドを使用するHiddenを提案する。
6つのモデルと10の分類データセットに関する実験は、Hiddenが現在のトークンベースベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-24T11:16:26Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。