論文の概要: Transformers for Tabular Data: A Training Perspective of Self-Attention via Optimal Transport
- arxiv url: http://arxiv.org/abs/2512.09530v1
- Date: Wed, 10 Dec 2025 11:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.492677
- Title: Transformers for Tabular Data: A Training Perspective of Self-Attention via Optimal Transport
- Title(参考訳): タブラルデータのためのトランスフォーマー:最適輸送による自己意識の訓練的視点
- Authors: Antonio Candelieri, Alessandro Quadrio,
- Abstract要約: この研究は、訓練中の自己注意層の中間的な投射を追跡し、その進化を評価する。
2つのクラスと3つのクラスからなる分類タスクと、バイオメディカルデータセットについて実験を行った。
その結果、最終自己注意マッピングはOT最適結合を近似することが多いが、トレーニング軌道は非効率であることがわかった。
- 参考スコア(独自算出の注目度): 42.80108166488221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis examines self-attention training through the lens of Optimal Transport (OT) and develops an OT-based alternative for tabular classification. The study tracks intermediate projections of the self-attention layer during training and evaluates their evolution using discrete OT metrics, including Wasserstein distance, Monge gap, optimality, and efficiency. Experiments are conducted on classification tasks with two and three classes, as well as on a biomedical dataset. Results indicate that the final self-attention mapping often approximates the OT optimal coupling, yet the training trajectory remains inefficient. Pretraining the MLP section on synthetic data partially improves convergence but is sensitive to their initialization. To address these limitations, an OT-based algorithm is introduced: it generates class-specific dummy Gaussian distributions, computes an OT alignment with the data, and trains an MLP to generalize this mapping. The method achieves accuracy comparable to Transformers while reducing computational cost and scaling more efficiently under standardized inputs, though its performance depends on careful dummy-geometry design. All experiments and implementations are conducted in R.
- Abstract(参考訳): この論文は、最適輸送(OT)レンズによる自己注意訓練を検証し、表層分類のためのOTベースの代替品を開発する。
この研究は、トレーニング中の自己注意層の中間投影を追跡し、ワッサーシュタイン距離、モンジュギャップ、最適性、効率などを含む個々のOTメトリクスを用いて、その進化を評価する。
2つのクラスと3つのクラスからなる分類タスクと、バイオメディカルデータセットについて実験を行った。
その結果、最終自己注意マッピングはOT最適結合を近似することが多いが、トレーニング軌道は非効率であることがわかった。
合成データ上でのMLPセクションの事前学習は収束を部分的に改善するが、初期化には敏感である。
これらの制限に対処するため、OTベースのアルゴリズムが導入され、クラス固有のダミーガウス分布を生成し、データとOTアライメントを計算し、このマッピングを一般化するためにMDPを訓練する。
この手法は計算コストを削減し、ダミー幾何設計に依存するが、標準化された入力の下でより効率的にスケーリングしながら、トランスフォーマーに匹敵する精度を実現する。
すべての実験と実装は R で実施される。
関連論文リスト
- Orientation-Aware Sparse Tensor PCA for Efficient Unsupervised Feature Selection [7.887782360541216]
非教師付き特徴選択(UFS)に分解(TD)技術を導入する。
この問題を解決するために、スパース特異値分解の向きに依存したテンソルテンソル積を用いる。
提案したテンソルPCAモデルは,所定のモードで間隔を制限し,スパーステンソル主成分を得る。
論文 参考訳(メタデータ) (2024-07-24T04:04:56Z) - Test-time adaptation for geospatial point cloud semantic segmentation with distinct domain shifts [6.80671668491958]
テスト時間適応(TTA)は、ソースデータへのアクセスや追加のトレーニングなしに、推論段階でラベル付けされていないデータに事前訓練されたモデルの直接適応を可能にする。
本稿では,3つの領域シフトパラダイムを提案する。光グラムから空気中LiDAR,空気中LiDAR,合成-移動レーザー走査である。
実験の結果,分類精度は最大20%mIoUに向上し,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-08T15:40:28Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Integrating Efficient Optimal Transport and Functional Maps For
Unsupervised Shape Correspondence Learning [43.6925865296259]
本稿では、関数マップ正規化器とSWDから派生した新しいOTに基づく損失を統合する教師なし形状マッチングフレームワークを提案する。
また、エントロピー正則化OTを用いた適応的精細化プロセスを導入し、正確な点対点対応のための特徴アライメントをさらに強化する。
本手法は,非剛性形状マッチングにおいて,ほぼ等尺性および非等尺性シナリオを含む優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-04T07:21:07Z) - Double-Bounded Optimal Transport for Advanced Clustering and
Classification [58.237576976486544]
本稿では,2つの境界内での目標分布の制限を前提としたDB-OT(Douubly bounded Optimal Transport)を提案する。
提案手法は,テスト段階における改良された推論方式により,良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-21T07:43:01Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。