論文の概要: Accuracy is Not All You Need
- arxiv url: http://arxiv.org/abs/2407.09141v1
- Date: Fri, 12 Jul 2024 10:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:57:34.199746
- Title: Accuracy is Not All You Need
- Title(参考訳): 正確さは必要なものばかりではない
- Authors: Abhinav Dutta, Sanjeev Krishnan, Nipun Kwatra, Ramachandran Ramjee,
- Abstract要約: 複数の圧縮技術、モデル、データセットにまたがるメトリクスの詳細な調査を行います。
本研究では, 圧縮モデルがエンドユーザーに対して可視である場合, 精度が類似している場合でも, ベースラインモデルとは大きく異なることを示す。
我々は、KL-Divergence と flips という2つの指標を提案し、それらがよく相関していることを示す。
- 参考スコア(独自算出の注目度): 9.371810162601623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When Large Language Models (LLMs) are compressed using techniques such as quantization, the predominant way to demonstrate the validity of such techniques is by measuring the model's accuracy on various benchmarks.If the accuracies of the baseline model and the compressed model are close, it is assumed that there was negligible degradation in quality.However, even when the accuracy of baseline and compressed model are similar, we observe the phenomenon of flips, wherein answers change from correct to incorrect and vice versa in proportion.We conduct a detailed study of metrics across multiple compression techniques, models and datasets, demonstrating that the behavior of compressed models as visible to end-users is often significantly different from the baseline model, even when accuracy is similar.We further evaluate compressed models qualitatively and quantitatively using MT-Bench and show that compressed models are significantly worse than baseline models in this free-form generative task.Thus, we argue that compression techniques should also be evaluated using distance metrics.We propose two such metrics, KL-Divergence and flips, and show that they are well correlated.
- Abstract(参考訳): 大規模言語モデル(LLM)を量子化などの手法を用いて圧縮する場合,その妥当性を示す主要な方法は,様々なベンチマーク上でモデルの精度を測定することであり,ベースラインモデルと圧縮モデルの精度が近い場合には,品質の無視できる劣化があったと仮定する。しかし,ベースラインモデルと圧縮モデルの精度が類似している場合でも,フリップの現象を観察し,正解が正解から正解に逆転する現象を観察する。また,複数の圧縮技術,モデル,データセットにわたって,圧縮モデルの動作がベースラインモデルと著しく異なることを示し,その精度が類似している場合でも,圧縮モデルの挙動がベースラインモデルと著しく異なることを明らかにする。
関連論文リスト
- Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - Can Model Compression Improve NLP Fairness [3.172761915061083]
本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留および刈り取りの影響について検討した最初の論文である。
我々は, GPT2モデルを用いて知識蒸留法とプルーニング法を試験し, 毒性とバイアス低減の一貫したパターンを見出した。
論文 参考訳(メタデータ) (2022-01-21T05:14:51Z) - Adversarial robustness for latent models: Revisiting the robust-standard
accuracies tradeoff [12.386462516398472]
標準的なテストの精度を落とすために、しばしば逆行訓練が観察される。
本稿では、このトレードオフは、データが低次元構造を楽しむ場合に緩和されると論じる。
周囲次元に対する多様体次元が減少するにつれて、標準精度とロバスト精度の両方に関してほぼ最適に近いモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-10-22T17:58:27Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Robustness in Compressed Neural Networks for Object Detection [2.9823962001574182]
圧縮されたモデルの異なる歪みタイプに対する感度はニュアンス化されている。
いくつかの汚職は圧縮法に大きく影響している。
データ拡張はモデルの堅牢性に肯定的な影響を与えることが確認された。
論文 参考訳(メタデータ) (2021-02-10T15:52:11Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Considering discrepancy when calibrating a mechanistic electrophysiology
model [41.77362715012383]
不確実性定量化(英: Uncertainty Quantification、UQ)は、数学的モデルとシミュレーションを用いて決定を行うための重要なステップである。
この記事では、モデル構造や方程式自体における不確実性という、我々の予測における重要かつ未適応な不確実性の源に注意を向ける。
論文 参考訳(メタデータ) (2020-01-13T13:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。