論文の概要: Distilling Tabular Foundation Models for Structured Health Data
- arxiv url: http://arxiv.org/abs/2605.18702v1
- Date: Mon, 18 May 2026 17:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.207215
- Title: Distilling Tabular Foundation Models for Structured Health Data
- Title(参考訳): 構造的健康データのための蒸留タブラリ基礎モデル
- Authors: Aditya Tanna, Nassim Bouarour, Mohamed Bouadi, Vinay Kumar Sankarapu, Pratinav Seth,
- Abstract要約: タブラル基礎モデル(TFM)は、健康データセット上で高いパフォーマンスを達成するが、その推論コストとインフラ要件は実用的利用を制限する。
本研究は, その予測行動が知識蒸留により, 軽量な表紙モデルに伝達できるかどうかを考察する。
蒸留された学生は、AUCの90%以上を保有し、いくつかのケースでは教師より優れており、CPU上では最低でも26時間以上高速に動作し、健康アプリケーションにとって重要な校正と公平性を維持する。
- 参考スコア(独自算出の注目度): 3.6863200438303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular foundation models (TFMs) achieve strong performance on health datasets, but their inference cost and infrastructure requirements limit practical use. We study whether their predictive behavior can be transferred to lightweight tabular models through knowledge distillation. Since in-context TFMs condition on the training set at inference time, naive distillation can introduce context leakage; we address this with stratified out-of-fold teacher labeling. Across $19$ healthcare datasets, $6$ TFM teachers, $4$ student families, and several multi-teacher ensembles, we find that distilled students retain at least $90\%$ of teacher AUC, outperforming teachers in some cases, while running at least $26\times$ faster on CPU and preserving calibration and fairness critical for health applications. Moreover, multi-teacher averaging does not consistently improve over the best single teacher. Leakage-aware distillation is thus a viable route for bringing TFM-quality predictions into inference-constrained health settings.
- Abstract(参考訳): タブラル基礎モデル(TFM)は、健康データセット上で高いパフォーマンスを達成するが、その推論コストとインフラ要件は実用的利用を制限する。
本研究は, その予測行動が知識蒸留により, 軽量な表紙モデルに伝達できるかどうかを考察する。
推論時間におけるトレーニングセットの文脈内FMの状態から, ナイーブ蒸留はコンテキストリークを導入し, 階層化されたアウト・オブ・フォールドの教師ラベルで対処する。
医療データセット19ドル、TFMの教師6ドル、学生の家族4ドル、そして複数の教師のアンサンブルでは、蒸留された学生は、少なくとも90セントのAUCを保有し、いくつかのケースでは、教師より優れている。
さらに、マルチ教師の平均化は、最高の1人の教師よりも一貫して改善されない。
したがって, 漏れを意識した蒸留は, TFM品質の予測を推論制約のある健康環境に持ち込むための有効な方法である。
関連論文リスト
- Distillation Traps and Guards: A Calibration Knob for LLM Distillability [54.90137955363471]
そこで本研究では,教師の蒸留性を制御するためのポストホック校正法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
実験により、蒸留可能な教師から蒸留した学生は、SFTおよびKDベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-21T01:22:35Z) - Uncertainty-Aware Knowledge Distillation for Multimodal Large Language Models [26.06143154557816]
知識蒸留は、データ監督と教師指導の両方を活用する学習パラダイムを確立する。
本研究では,教師の指導にどの程度依存しているかを規定する不確実性を考慮した蒸留フレームワークであるBeta-KDを提案する。
論文 参考訳(メタデータ) (2026-03-22T22:33:25Z) - SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines [82.00660447875266]
知識蒸留(英: Knowledge Distillation, KD)は、大きな教師ネットワークから、しばしばソフト確率出力を利用して、より小さな学生モデルに知識を伝達する中心的なパラダイムである。
グラディエント・Descent (SGD) を訓練した学生の収束行動の厳密に分析する。
分析の結果,BCPからの学習は分散の低減と収束境界の近傍項の除去に寄与することがわかった。
これらの知見に触発されて、我々は、通常、KDの教師として、BCPの見積もりを改善するベイズ深層学習モデルの使用を提唱する。
論文 参考訳(メタデータ) (2026-01-04T11:09:49Z) - BRIDGE: Budget-aware Reasoning via Intermediate Distillation with Guided Examples [4.546153508917822]
大きなプロプライエタリなモデルから小さなデプロイ可能なモデルへの知識の希薄化は、キャパシティ予算の罠に直面する。
BRIDGEは戦略的修復と予算非対称性によってこれらの制約を解決する2段階のフレームワークである。
Bridgeは生徒のパフォーマンスを28~41%向上させ、プロプライエタリな教師との能力格差を12~16%減らし、教師のクエリを10倍減らした。
論文 参考訳(メタデータ) (2025-12-23T14:46:43Z) - GUIDE: Guided Initialization and Distillation of Embeddings [5.42040523407098]
ガイド(インプラントの初期化・蒸留)について紹介する
ガイドは、学生がパラメータ空間の教師にマッチするように強制する蒸留技術と考えることができる。
本研究は, ガイドのみを適用すれば, 知識蒸留よりも, モデル品質が著しく向上することを示す。
論文 参考訳(メタデータ) (2025-10-07T22:37:24Z) - CLIP-Embed-KD: Computationally Efficient Knowledge Distillation Using Embeddings as Teachers [1.6317061277457001]
対照的な言語-画像事前学習(CLIP)は、ゼロショットの一般化機能を改善することが示されている。
埋め込みを教師として活用することで,CLIPを効率的な知識蒸留のために拡張する。
論文 参考訳(メタデータ) (2024-04-09T09:49:57Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss [32.816725317261934]
本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
論文 参考訳(メタデータ) (2023-03-10T14:46:23Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。