論文の概要: Likelihood-guided Regularization in Attention Based Models
- arxiv url: http://arxiv.org/abs/2511.13221v1
- Date: Mon, 17 Nov 2025 10:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.129168
- Title: Likelihood-guided Regularization in Attention Based Models
- Title(参考訳): 注意に基づくモデルにおける様相誘導正規化
- Authors: Mohamed Salem, Inyoung Kim,
- Abstract要約: 視覚変換器(ViTs)のための確率誘導型変分型Ising型正規化フレームワークを提案する。
そこで,Ising正則化器は,不確実性を考慮した注意機構を通じて,精度の高い確率推定と構造的特徴選択を導出することを示す。
- 参考スコア(独自算出の注目度): 1.561268797057701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architecture has demonstrated strong performance in classification tasks involving structured and high-dimensional data. However, its success often hinges on large- scale training data and careful regularization to prevent overfitting. In this paper, we intro- duce a novel likelihood-guided variational Ising-based regularization framework for Vision Transformers (ViTs), which simultaneously enhances model generalization and dynamically prunes redundant parameters. The proposed variational Ising-based regularization approach leverages Bayesian sparsification techniques to impose structured sparsity on model weights, allowing for adaptive architecture search during training. Unlike traditional dropout-based methods, which enforce fixed sparsity patterns, the variational Ising-based regularization method learns task-adaptive regularization, improving both efficiency and interpretability. We evaluate our approach on benchmark vision datasets, including MNIST, Fashion-MNIST, CIFAR-10, and CIFAR-100, demonstrating improved generalization under sparse, complex data and allowing for principled uncertainty quantification on both weights and selection parameters. Additionally, we show that the Ising regularizer leads to better-calibrated probability estimates and structured feature selection through uncertainty-aware attention mechanisms. Our results highlight the effectiveness of structured Bayesian sparsification in enhancing transformer-based architectures, offering a principled alternative to standard regularization techniques.
- Abstract(参考訳): トランスアーキテクチャは、構造化データと高次元データを含む分類タスクにおいて、強い性能を示している。
しかし、その成功はしばしば、過度な適合を防ぐために大規模なトレーニングデータと注意深い正規化に依存している。
本稿では,視覚変換器(ViTs)のための新しい確率誘導型変分法(Ising-based regularization framework)を提案する。
提案した変分Isingに基づく正規化手法はベイズスペーシフィケーション手法を利用してモデル重みに構造的疎度を課し、トレーニング中に適応的なアーキテクチャ探索を可能にする。
固定間隔パターンを強制する従来のドロップアウト方式とは異なり、Isingベースの変分正規化法はタスク適応正規化を学習し、効率と解釈性の両方を改善している。
我々は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100といったベンチマークビジョンデータセットに対するアプローチを評価し、スパースで複雑なデータの下での一般化の改善を実証し、重みと選択パラメータの原理的不確実性定量化を可能にした。
さらに、Ising正則化器は、不確実性を考慮した注意機構を通じて、より良いキャリブレーションされた確率推定と構造的特徴選択をもたらすことを示した。
本研究は, 標準正規化手法の代替として, トランスフォーマーアーキテクチャの強化における構造ベイズスペーシフィケーションの有効性を強調した。
関連論文リスト
- SHAP-Guided Regularization in Machine Learning Models [1.0515439489916734]
本稿では,特徴量制約をモデルトレーニングに組み込んだSHAP誘導正規化フレームワークを提案する。
提案手法は, アントロピーに基づくペナルティを応用し, スパース, 集中した特徴属性の促進と, 試料間の安定性の促進を図った。
論文 参考訳(メタデータ) (2025-07-31T15:45:38Z) - Bayesian Experimental Design for Model Discrepancy Calibration: An Auto-Differentiable Ensemble Kalman Inversion Approach [0.0]
自動微分可能アンサンブルカルマンインバージョン(AD-EKI)によるハイブリッドBEDフレームワークを提案する。
我々は実験的な設計を反復的に最適化し、標準BED法で処理される低次元物理パラメータの推論を分離する。
提案手法は古典的対流拡散BED例を用いて検討した。
論文 参考訳(メタデータ) (2025-04-29T00:10:45Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。