論文の概要: Compressed Models are NOT Trust-equivalent to Their Large Counterparts
- arxiv url: http://arxiv.org/abs/2508.13533v1
- Date: Tue, 19 Aug 2025 05:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.810064
- Title: Compressed Models are NOT Trust-equivalent to Their Large Counterparts
- Title(参考訳): 圧縮モデルは大きな対向部と同等ではない
- Authors: Rohit Raj Rai, Chirag Kothari, Siddhesh Shelke, Amit Awekar,
- Abstract要約: 大規模なディープラーニングモデルは、リソース制約のある環境にデプロイする前に圧縮されることが多い。
圧縮モデルの予測は、オリジナルの大モデルの予測を信頼するのと同じように信頼できますか?
本稿では,信頼等価性評価のための2次元フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8124699127636158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Deep Learning models are often compressed before being deployed in a resource-constrained environment. Can we trust the prediction of compressed models just as we trust the prediction of the original large model? Existing work has keenly studied the effect of compression on accuracy and related performance measures. However, performance parity does not guarantee trust-equivalence. We propose a two-dimensional framework for trust-equivalence evaluation. First, interpretability alignment measures whether the models base their predictions on the same input features. We use LIME and SHAP tests to measure the interpretability alignment. Second, calibration similarity measures whether the models exhibit comparable reliability in their predicted probabilities. It is assessed via ECE, MCE, Brier Score, and reliability diagrams. We conducted experiments using BERT-base as the large model and its multiple compressed variants. We focused on two text classification tasks: natural language inference and paraphrase identification. Our results reveal low interpretability alignment and significant mismatch in calibration similarity. It happens even when the accuracies are nearly identical between models. These findings show that compressed models are not trust-equivalent to their large counterparts. Deploying compressed models as a drop-in replacement for large models requires careful assessment, going beyond performance parity.
- Abstract(参考訳): 大規模なディープラーニングモデルは、リソース制約のある環境にデプロイする前に圧縮されることが多い。
圧縮モデルの予測は、オリジナルの大モデルの予測を信頼するのと同じように信頼できますか?
既存の研究は、圧縮が精度および関連する性能測定に与える影響を熱心に研究してきた。
しかし、パフォーマンスの同等性は信頼等価性を保証するものではない。
本稿では,信頼等価性評価のための2次元フレームワークを提案する。
第一に、解釈可能性アライメントはモデルが同じ入力特徴に基づいて予測を行うかどうかを測定する。
LIME と SHAP を用いて解釈可能性のアライメントを測定する。
第二に、キャリブレーションの類似性は、予測された確率においてモデルが同等の信頼性を示すかどうかを測定する。
ECE、MCE、Brier Score、信頼性ダイアグラムを通じて評価される。
BERTベースを大モデルとし,その多変量圧縮実験を行った。
我々は、自然言語推論とパラフレーズ識別という2つのテキスト分類タスクに焦点をあてた。
その結果, キャリブレーション類似性において, 解釈可能性の低いアライメントと顕著なミスマッチが認められた。
精度がモデルとほぼ同一である場合でも起こります。
これらの結果は,圧縮モデルが大きなモデルと同等ではないことを示している。
圧縮されたモデルを大規模モデルのドロップイン置換としてデプロイするには、パフォーマンスの同等性を超えて、慎重に評価する必要がある。
関連論文リスト
- Quantifying the Reliability of Predictions in Detection Transformers: Object-Level Calibration and Image-Level Uncertainty [6.209833978040362]
実際には、DETRは画像に存在するオブジェクトの実際の数よりはるかに多い数百の予測を生成する。
これらすべての予測を信頼し、使用できますか?
我々は、同じ画像内の異なる予測がどのように異なる役割を果たすかを示す実証的な証拠を示し、その結果、信頼性のレベルが異なることを示す。
論文 参考訳(メタデータ) (2024-12-02T18:34:17Z) - Evaluating Model Bias Requires Characterizing its Mistakes [19.777130236160712]
スキューサイズ(SkewSize)は、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。
マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。
合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。
論文 参考訳(メタデータ) (2024-07-15T11:46:21Z) - Accuracy is Not All You Need [9.371810162601623]
複数の圧縮技術、モデル、データセットにまたがるメトリクスの詳細な調査を行います。
本研究では, 圧縮モデルがエンドユーザーに対して可視である場合, 精度が類似している場合でも, ベースラインモデルとは大きく異なることを示す。
我々は、KL-Divergence と flips という2つの指標を提案し、それらがよく相関していることを示す。
論文 参考訳(メタデータ) (2024-07-12T10:19:02Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Confidence and Dispersity Speak: Characterising Prediction Matrix for
Unsupervised Accuracy Estimation [51.809741427975105]
この研究は、ラベルを使わずに、分散シフト下でのモデルの性能を評価することを目的としている。
我々は、両方の特性を特徴付けるのに有効であることが示されている核規範を用いる。
核の基準は既存の手法よりも正確で堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-02T13:30:48Z) - Usable Region Estimate for Assessing Practical Usability of Medical
Image Segmentation Models [32.56957759180135]
医療画像セグメンテーションモデルの実用的ユーザビリティを定量的に測定することを目的としている。
まず、予測者の信頼度がランクの正確度スコアとどのように相関しているかを推定する尺度であるCCRC(Correctness-Confidence Rank correlation)を提案する。
次に、予測の正しさと信頼度を同時に定量化するURE(Usable Region Estimate)を提案する。
論文 参考訳(メタデータ) (2022-07-01T02:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。