論文の概要: Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning
- arxiv url: http://arxiv.org/abs/2603.26801v1
- Date: Thu, 26 Mar 2026 03:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.627741
- Title: Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning
- Title(参考訳): Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning
- Authors: Filippo Cenacchi,
- Abstract要約: 統一されたスペーシフィケーションプリミティブは、モダリティに匹敵する精度と効率のトレードオフをもたらす。
学習表現に直接L0スタイルのスパーシリティを強制するモダリティ非依存的かつ機能的にハードコンクリートなゲーティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive systems increasingly span heterogeneous modalities such as graphs, language, and tabular records, but sparsity and efficiency remain modality-specific (graph edge or neighborhood sparsification, Transformer head or layer pruning, and separate tabular feature-selection pipelines). This fragmentation makes results hard to compare, complicates deployment, and weakens reliability analysis across end-to-end KDD pipelines. A unified sparsification primitive would make accuracy-efficiency trade-offs comparable across modalities and enable controlled reliability analysis under representation compression. We ask whether a single representation-level mechanism can yield comparable accuracy-efficiency trade-offs across modalities while preserving or improving probability calibration. We propose L0-Gated Cross-Modality Learning (L0GM), a modality-agnostic, feature-wise hard-concrete gating framework that enforces L0-style sparsity directly on learned representations. L0GM attaches hard-concrete stochastic gates to each modality's classifier-facing interface: node embeddings (GNNs), pooled sequence embeddings such as CLS (Transformers), and learned tabular embedding vectors (tabular models). This yields end-to-end trainable sparsification with an explicit control knob for the active feature fraction. To stabilize optimization and make trade-offs interpretable, we introduce an L0-annealing schedule that induces clear accuracy-sparsity Pareto frontiers. Across three public benchmarks (ogbn-products, Adult, IMDB), L0GM achieves competitive predictive performance while activating fewer representation dimensions, and it reduces Expected Calibration Error (ECE) in our evaluation. Overall, L0GM establishes a modality-agnostic, reproducible sparsification primitive that supports comparable accuracy, efficiency, and calibration trade-off analysis across heterogeneous modalities.
- Abstract(参考訳): 予測システムは、グラフ、言語、表状レコードなどの不均一なモダリティにまたがる傾向にあるが、スパーシリティと効率性は、モダリティに特化している(グラフエッジまたは近隣スペーシフィケーション、トランスフォーマーヘッドまたは層プルーニング、タブ状特徴選択パイプラインの分離)。
この断片化は、結果を比較し、デプロイを複雑化し、エンドツーエンドのKDDパイプライン間の信頼性分析を弱める。
統一されたスペーシフィケーションプリミティブは、モダリティに匹敵する精度効率のトレードオフを行い、表現圧縮の下で制御された信頼性解析を可能にする。
単一の表現レベルのメカニズムが、確率校正を保留または改善しながら、モダリティ間で同等の精度・効率のトレードオフをもたらすかどうかを問う。
本稿では,L0-Gated Cross-Modality Learning (L0GM)を提案する。
ノード埋め込み(GNN)、CLS(Transformers)のようなプール型シーケンス埋め込み(プール型)、タブ型埋め込みベクトル(タブラルモデル)などである。
これにより、アクティブな特徴分数に対する明示的な制御ノブで、エンドツーエンドのトレーニング可能なスパース化が得られる。
最適化を安定させ,トレードオフを解釈可能にするため,L0アニーリングスケジュールを導入し,鮮明な精度スパーシティ・パレートフロンティアを創出する。
3つの公開ベンチマーク(ogbn-products, adult, IMDB)において、L0GMは、表現次元を減らしながら競合予測性能を達成し、予測校正誤差(ECE)を減少させる。
全体として、L0GMはモダリティに依存しない再現可能なスカラー化プリミティブを確立し、等質なモダリティ間での精度、効率、キャリブレーショントレードオフ解析をサポートする。
関連論文リスト
- Variational Rectification Inference for Learning with Noisy Labels [74.85528327499662]
損失関数の適応的補正を定式化するために, 変分補正推論(VRI)を提案する。
VRIは、補正ベクトルを潜在変数として扱うことによって階層ベイズとして構成される。
VRIで変分項を導入することにより、条件付き後部を正確に推定し、ディラックデルタ関数への崩壊を避ける。
論文 参考訳(メタデータ) (2026-03-18T01:25:08Z) - Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment [27.352639822596146]
クロスワーカーの損失と勾配のばらつきは、従来の監視信号では見えない。
本稿では,標準パイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,モデルに依存しない診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T04:42:30Z) - EST: Towards Efficient Scaling Laws in Click-Through Rate Prediction via Unified Modeling [13.693397814262681]
近年,産業用クリックスルーレート(CTR)予測の効率化が注目されている。
そこで本研究では,すべての生入力を単一シーケンスで処理して完全に統一されたモデリングを実現する,効率よくスケーラブルな変換器 (EST) を提案する。
ESTは生産ベースラインを大幅に上回り、3.27%のRPM(Revenue Per Mile)と1.22%のCTRリフトを提供する。
論文 参考訳(メタデータ) (2026-02-11T12:51:54Z) - AGDC: Autoregressive Generation of Variable-Length Sequences with Joint Discrete and Continuous Spaces [33.91616464118993]
トランスフォーマーベースの自己回帰モデルはデータ生成に優れるが、識別トークンへの依存によって本質的に制約される。
本稿では,従来の離散化に基づくハイブリッド離散連続列生成手法のスケーラビリティ限界を解析する。
可変長列の離散値と連続値とを連立でモデル化する新しい統合フレームワーク AGDC を提案する。
論文 参考訳(メタデータ) (2026-01-09T09:57:12Z) - Sparse Attention Post-Training for Mechanistic Interpretability [55.030850996535776]
本稿では,トランスフォーマーの注意を犠牲にすることなく,簡易なポストトレーニング手法を提案する。
制約された余剰目的の下でフレキシブルな空間規則化を適用することで、1Bパラメータまでのモデルで、初期トレーニング損失を抑えつつ、注意接続性を$approx 0.3 %に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-12-05T16:40:08Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。