論文の概要: Dropout Robustness and Cognitive Profiling of Transformer Models via Stochastic Inference
- arxiv url: http://arxiv.org/abs/2603.17811v1
- Date: Wed, 18 Mar 2026 15:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.77093
- Title: Dropout Robustness and Cognitive Profiling of Transformer Models via Stochastic Inference
- Title(参考訳): 確率的推論による変圧器モデルのドロップアウトロバスト性と認知的プロファイリング
- Authors: Antônio Junior Alves Caiado, Michael Hahsler,
- Abstract要約: トランスフォーマーベースの言語モデルは推論のために広くデプロイされているが、推論時間の下でのそれらの振る舞いは未探索のままである。
本研究は,サンプルあたり100フォワードパスのMC Dropoutを用いて,19の変圧器モデル間でのドロップアウト誘起変動を解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models are widely deployed for reasoning, yet their behavior under inference-time stochasticity remains underexplored. While dropout is common during training, its inference-time effects via Monte Carlo sampling lack systematic evaluation across architectures, limiting understanding of model reliability in uncertainty-aware applications. This work analyzes dropout-induced variability across 19 transformer models using MC Dropout with 100 stochastic forward passes per sample. Dropout robustness is defined as maintaining high accuracy and stable predictions under stochastic inference, measured by standard deviation of per-run accuracies. A cognitive decomposition framework disentangles performance into memory and reasoning components. Experiments span five dropout configurations yielding 95 unique evaluations on 1,000 samples. Results reveal substantial architectural variation. Smaller models demonstrate perfect prediction stability while medium-sized models exhibit notable volatility. Mid-sized models achieve the best overall performance; larger models excel at memory tasks. Critically, 53% of models suffer severe accuracy degradation under baseline MC Dropout, with task-specialized models losing up to 24 percentage points, indicating unsuitability for uncertainty quantification in these architectures. Asymmetric effects emerge: high dropout reduces memory accuracy by 27 percentage points while reasoning degrades only 1 point, suggesting memory tasks rely on stable representations that dropout disrupts. 84% of models demonstrate memory-biased performance. This provides the first comprehensive MC Dropout benchmark for transformers, revealing dropout robustness is architecture-dependent and uncorrelated with scale. The cognitive profiling framework offers actionable guidance for model selection in uncertainty-aware applications.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは推論のために広くデプロイされているが、推論時間の確率性の下でのそれらの振る舞いは未探索のままである。
トレーニング中、ドロップアウトは一般的であるが、モンテカルロサンプリングによる推論時間の影響は、アーキテクチャ全体にわたって体系的な評価を欠き、不確実性を認識したアプリケーションにおけるモデルの信頼性の理解を制限している。
本研究は,100の確率フォワードパスを持つMCDropoutを用いて,19の変圧器モデル間でのドロップアウト誘起変動を解析する。
ドロップアウトロバスト性は、確率的推論の下で高い精度と安定した予測を維持し、ラン当たりの精度の標準偏差によって測定される。
認知分解フレームワークは、パフォーマンスをメモリと推論コンポーネントに分離する。
実験は5つのドロップアウト構成にまたがって行われ、1000のサンプルに対して95のユニークな評価が得られた。
結果は、相当なアーキテクチャ上の変化を示します。
小型モデルは完全な予測安定性を示し、中型モデルは顕著なボラティリティを示す。
中規模のモデルは全体的なパフォーマンスを最高のものにし、より大きなモデルはメモリタスクで優れている。
重要な点として、53%のモデルがベースラインMCドロップアウトの下で深刻な精度低下を被り、タスク特化モデルは最大24ポイントまで減少し、これらのアーキテクチャの不確実性定量化には不適当であることが示唆された。
高いドロップアウトはメモリの精度を27ポイント削減し、推論は1ポイントしか低下せず、メモリタスクはドロップアウトが破壊する安定した表現に依存していることを示唆する。
84%のモデルがメモリバイアス性能を示した。
これにより、トランスのMC Dropoutベンチマークが初めて提供され、ドロップアウトの堅牢性はアーキテクチャに依存しており、スケールとは無関係であることが判明した。
認知プロファイリングフレームワークは、不確実性を認識したアプリケーションにおけるモデル選択のための実用的なガイダンスを提供する。
関連論文リスト
- Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors [60.06461883533697]
我々は、ランクワンモデル編集を活用して、帰属誘導モデル修正フレームワークを確立する。
まず、既存のモデル編集と整合性の設定を区別し、信頼性の低い振る舞いを補正する定式化を行う。
そこで本研究では, 帰属誘導層ローカライゼーション手法を提案する。
論文 参考訳(メタデータ) (2026-03-08T01:06:07Z) - DropoutTS: Sample-Adaptive Dropout for Robust Time Series Forecasting [59.868414584142336]
DropoutTS はモデルに依存しないプラグインで、パラダイムを "What" から "How much" にシフトします。
ノイズを適応的なドロップアウト率にマッピングする - きめ細かい忠実さを維持しながら、急激な変動を選択的に抑制する。
論文 参考訳(メタデータ) (2026-01-29T13:49:20Z) - The Drill-Down and Fabricate Test (DDFT): A Protocol for Measuring Epistemic Robustness in Language Models [0.0]
現在の言語モデル評価は、理想的な条件下でモデルが知っていることを計測するが、現実的なストレス下でそれをどれだけ堅牢に知っているかは測定しない。
本稿では,ロバスト性を測定するプロトコルであるDrill-Down Fabricate Test (DDFT)を紹介する。
フラッグシップモデルはスケールにもかかわらず脆さを示すのに対して、小さなモデルは堅牢なパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2025-12-29T20:29:09Z) - SG-OIF: A Stability-Guided Online Influence Framework for Reliable Vision Data [6.4391040754741296]
本稿では,テスト予測に対するトレーニングポイントの影響を近似するための安定誘導オンライン影響フレームワーク(SG-OIF)を提案する。
CIFAR-10の上位1%の予測サンプルでは,SG-OIFが91.1%,MNISTの99.8%のAUPRスコアが得られた。
論文 参考訳(メタデータ) (2025-11-21T19:58:54Z) - Uncertainty-aware Human Mobility Modeling and Anomaly Detection [24.22648449430148]
生のGPSデータを連続的静止点イベントとしてモデル化した人間の行動における異常検出を定式化する。
提案したモデルUSTADとアレータティック不確実性推定を併用する。
実験の結果,USTADは産業規模データのベースライン以上でAUCROCの異常検出を3%-15%改善することがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:57:08Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Towards a performance characteristic curve for model evaluation: an application in information diffusion prediction [2.8686437689115354]
拡散データのランダム性を定量化するために,情報エントロピーに基づくメトリクスを提案する。
次に,モデルのランダム性と予測精度の間のスケーリングパターンを同定する。
曲線の妥当性は、同じ家系の3つの予測モデルによって検証される。
論文 参考訳(メタデータ) (2023-09-18T07:32:57Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。