論文の概要: LimiX-2M: Mitigating Low-Rank Collapse and Attention Bottlenecks in Tabular Foundation Models
- arxiv url: http://arxiv.org/abs/2606.04485v1
- Date: Wed, 03 Jun 2026 06:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 07:07:40.454977
- Title: LimiX-2M: Mitigating Low-Rank Collapse and Attention Bottlenecks in Tabular Foundation Models
- Title(参考訳): LimiX-2M:タブラファウンデーションモデルにおける低ランク崩壊とアテンション・ボトルネックの緩和
- Authors: Yuanrui Wang, Xingxuan Zhang, Han Yu, Mingchao Ming, Gang Ren, Hao Yuan, Li Mao, Yunjia Zhang, Chun Yuan, Peng Cui,
- Abstract要約: タブラル基礎モデル(TFM)は木アンサンブルと競合する傾向にあるが、その性能は計算非効率である。
本稿では,強力なTFMを実現するための統一的なEmphtokenize-and-routeフレームワークを提案する。
その結果、TFMにおける精度-効率トレードオフを改善するキーレバーとして、バリューアウェアトークン化とリードアウト整合ルーティングが強調された。
- 参考スコア(独自算出の注目度): 56.999481798138625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular foundation models (TFMs) increasingly rival tree ensembles, but their performance is often compute-inefficient: with standard affine scalar tokenization, each feature injects value variation through an essentially one-dimensional channel, and feature IDs/positional signals cannot increase within-feature value degrees of freedom, yielding weak early-layer value sensitivity and redundant hidden states. We present a unified \emph{tokenize-and-route} framework for strong TFMs: \textbf{RaBEL} expands each scalar into compact localized RBF features (optionally exponent-gated) to improve conditioning and shallow-layer effective rank, while a reordered bidirectional block \textbf{S$\rightarrow$N$\rightarrow$F} aligns computation with the readout by aggregating cross-sample context before feature mixing and using attention pooling. Together, these changes yield \textbf{LimiX-2M}, a 2M-parameter model that outperforms larger TabPFN-v2 and TabICL baselines on widely used tabular benchmarks while reducing training and inference costs. These results highlight value-aware tokenization and readout-aligned routing as key levers for improving the accuracy--efficiency trade-off in TFMs. Model checkpoints and inference code are available at https://github.com/limix-ldm-ai/LimiX.
- Abstract(参考訳): 標準的なアフィンスカラートークン化では、各特徴は基本的に1次元のチャネルを通じて値の変化を注入し、特徴ID/位置信号は、機能内における自由度を増大させ、弱い初期層値感度と隠蔽状態をもたらす。
我々は,強いTFMのための統一された \emph{tokenize-and-route} フレームワークを提案する: \textbf{RaBEL} は,各スカラーをコンパクトな局所化RBF特徴(オプションで指数関数付き)に拡張し,条件付けと浅層効果ランクを改善する。
これらの変更によって、トレーニングと推論のコストを削減しつつ、広く使用されているベンチマークでTabPFN-v2とTabICLのベースラインを上回る2Mパラメータモデルであるtextbf{LimiX-2M}が得られる。
これらの結果は、TFMにおける精度-効率トレードオフを改善するキーレバーとして、バリューアウェアトークン化とリードアウト整合ルーティングを強調している。
モデルチェックポイントと推論コードはhttps://github.com/limix-ldm-ai/LimiXで公開されている。
関連論文リスト
- MAny: Merge Anything for Multimodal Continual Instruction Tuning [52.50936513604062]
textbfMAny(textbfMAny)は、textbfCross-modal textbfProjection textbfMergingを通じてタスク固有の知識を統合するフレームワークである。
textbfLow-rank textbfParameter textbfMerging (textbfLPM)
論文 参考訳(メタデータ) (2026-04-15T15:57:23Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - FMS$^2$: Unified Flow Matching for Segmentation and Synthesis of Thin Structures [1.3111058225843968]
2つのモジュールを持つフローマッチングフレームワークであるFMS$2$を提案する。
SegFlowは標準的なエンコーダ/デコーダのバックボーン上に構築された2.96Mパラメータセグメンテーションモデルである。
SynFlowはマスク付きマスク$rightarrow$イメージジェネレータで、ピクセル対応の合成イメージマスクペアを生成する。
論文 参考訳(メタデータ) (2026-03-14T00:04:25Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - vLinear: A Powerful Linear Model for Multivariate Time Series Forecasting [28.587343014443576]
vecTransは学習可能なベクトルを使って多変量相関をモデル化する軽量モジュールである。
WFMLossは効果的なプラグ・アンド・プレイの目標であり、既存の予測装置を一貫して改善している。
論文 参考訳(メタデータ) (2026-01-20T09:23:10Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Harnessing Optimization Dynamics for Curvature-Informed Model Merging [17.42364575754576]
教師付き微調整では、複数の機能ベースのSFTチェックポイントを1つのモデルに統合する必要がある。
我々は、最適化トラジェクトリ・アウェア(OTA)マージと高速フィッシャーグラフティング(FFG)を導入する。
OTA+FFGは、強力な重量空間ベースラインよりもマージモデルの品質を改善し、負の転送を低減し、スパーシティレベルにわたって堅牢である。
論文 参考訳(メタデータ) (2025-09-14T08:59:53Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。