論文の概要: As easy as PIE: understanding when pruning causes language models to disagree
- arxiv url: http://arxiv.org/abs/2503.21714v1
- Date: Thu, 27 Mar 2025 17:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:14.937473
- Title: As easy as PIE: understanding when pruning causes language models to disagree
- Title(参考訳): PIEと同じくらい簡単:プルーニングが言語モデルに不一致をもたらすときの理解
- Authors: Pietro Tropeano, Maria Maistro, Tuukka Ruotsalo, Christina Lioma,
- Abstract要約: データポイントのサブセットは常に、プルーニング時に(精度の低下の観点から)ほとんどを保持します。
これらのデータポイントはPIEと呼ばれ、画像処理で研究されているが、NLPでは研究されていない。
我々は、PIEがより長く、より意味論的に複雑なテキストに対する推論を難しく、かつ影響のあるものにしていることを追跡している。
- 参考スコア(独自算出の注目度): 12.0633790287422
- License:
- Abstract: Language Model (LM) pruning compresses the model by removing weights, nodes, or other parts of its architecture. Typically, pruning focuses on the resulting efficiency gains at the cost of effectiveness. However, when looking at how individual data points are affected by pruning, it turns out that a particular subset of data points always bears most of the brunt (in terms of reduced accuracy) when pruning, but this effect goes unnoticed when reporting the mean accuracy of all data points. These data points are called PIEs and have been studied in image processing, but not in NLP. In a study of various NLP datasets, pruning methods, and levels of compression, we find that PIEs impact inference quality considerably, regardless of class frequency, and that BERT is more prone to this than BiLSTM. We also find that PIEs contain a high amount of data points that have the largest influence on how well the model generalises to unseen data. This means that when pruning, with seemingly moderate loss to accuracy across all data points, we in fact hurt tremendously those data points that matter the most. We trace what makes PIEs both hard and impactful to inference to their overall longer and more semantically complex text. These findings are novel and contribute to understanding how LMs are affected by pruning. The code is available at: https://github.com/pietrotrope/AsEasyAsPIE
- Abstract(参考訳): 言語モデル(LM)プルーニングは、そのアーキテクチャの重みやノード、その他の部分を取り除くことでモデルを圧縮する。
通常、プルーニングは効果のコストで得られる効率の向上に焦点を当てる。
しかしながら、プルーニングによって個々のデータポイントがどのように影響を受けるかを調べると、データポイントの特定のサブセットは、プルーニング時に常に(精度の低下の観点から)ほとんどを負っていることが分かるが、全てのデータポイントの平均精度を報告すると、この効果は気づかない。
これらのデータポイントはPIEと呼ばれ、画像処理で研究されているが、NLPでは研究されていない。
各種NLPデータセット, 刈り取り方法, 圧縮レベルについて検討した結果, PIEs はクラス周波数によらず, 推論品質に大きく影響し, BERT は BiLSTM よりも高い傾向を示した。
また、PIEには大量のデータポイントが含まれており、モデルが不明瞭なデータに対していかにうまく一般化するかに最も影響を与える。
つまり、プルーニングがすべてのデータポイントの精度を中途半端に損なうと、私たちは実際、最も重要なデータポイントを著しく傷つけます。
我々は、PIEがより長く、より意味論的に複雑なテキストに対する推論を難しく、かつ影響のあるものにしていることを追跡している。
これらの発見は、LMが刈り込みによってどのように影響を受けるかを理解するのに有効である。
コードは、https://github.com/pietrotrope/AsEasyAsPIEで入手できる。
関連論文リスト
- Deep Learning Approach for Knee Point Detection on Noisy Data [0.0]
曲線上の膝点とは、曲線の上昇後に曲線が下降する点である。
本研究では,正規化データに基づいて膝点を定義する。
我々は、基盤となる真の分布の膝点を正確に検出するために、U-Netのようなアーキテクチャを持つ畳み込みニューラルネットワーク(CNN)を用いる。
論文 参考訳(メタデータ) (2024-09-23T23:29:19Z) - Distilling the Knowledge in Data Pruning [4.720247265804016]
刈り込みサブセットのトレーニングにおいて,知識蒸留(KD)を取り入れたデータ刈り込みの適用について検討する。
我々は、データセット、プルーニング方法、および全てのプルーニング率において、大幅な改善を示す。
興味をそそる観察を行ない、より低いプルーニング率を使用すると、より大きな教師が精度を低下させ、驚くべきことに、学生よりも少ない能力の教師を雇うことで、結果が改善する可能性がある。
論文 参考訳(メタデータ) (2024-03-12T17:44:45Z) - How Does Pruning Impact Long-Tailed Multi-Label Medical Image
Classifiers? [49.35105290167996]
プルーニングは、ディープニューラルネットワークを圧縮し、全体的なパフォーマンスに大きな影響を及ぼすことなく、メモリ使用量と推論時間を短縮する強力なテクニックとして登場した。
この研究は、プルーニングがモデル行動に与える影響を理解するための第一歩である。
論文 参考訳(メタデータ) (2023-08-17T20:40:30Z) - When does Privileged Information Explain Away Label Noise? [66.9725683097357]
ラベルノイズを除去する際のPIの特性の違いによる役割について検討する。
ネットワークがノイズの多いデータとクリーンなデータを容易に区別できる場合、PIが最も役立ちます。
本稿では,最新のPI手法のいくつかの改良を提案し,ラベルノイズに対処する手段としてのPIの可能性を示す。
論文 参考訳(メタデータ) (2023-03-03T09:25:39Z) - FairGRAPE: Fairness-aware GRAdient Pruning mEthod for Face Attribute
Classification [4.909402570564468]
フェアネス対応型GRADient Pruning mEthod(FairGRAPE)を提案する。
本手法は,各モデルの重みの群ごとの重要度を算出し,プルーニングにおけるグループ間の総重要度を相対的に維持する重みのサブセットを選択する。
我々の手法は高い刈り取り率(99%)の設定において極めて効果的である。
論文 参考訳(メタデータ) (2022-07-22T05:44:03Z) - Object Localization under Single Coarse Point Supervision [107.46800858130658]
本稿では,粗い点アノテーションを用いたPOL手法を提案する。
CPRは、ポイントバッグを構築し、セマンティック関連点を選択し、マルチインスタンス学習(MIL)を通してセマンティックセンターポイントを生成する。
このようにして、CPRは、粗い点監督の下で高性能オブジェクトローカライザのトレーニングを保証する、弱い制御された進化手順を定義する。
論文 参考訳(メタデータ) (2022-03-17T14:14:11Z) - Deconfounded Training for Graph Neural Networks [98.06386851685645]
本稿では, コンバウンディング効果を緩和し, 臨界情報に対するラッチを緩和する新しいDecon Training(DTP)のパラダイムを提案する。
具体的には、注意モジュールを用いて臨界部分グラフと自明部分グラフをアンタングル化する。
これにより、GNNは、ラベルとの関係が複数のディストリビューションで堅牢である、より信頼性の高いサブグラフをキャプチャできる。
論文 参考訳(メタデータ) (2021-12-30T15:22:35Z) - Inf-CP: A Reliable Channel Pruning based on Channel Influence [4.692400531340393]
チャネルプルーニングの最も効果的な方法の1つは、各ニューロンの重要性に基づいてトリムを行うことである。
従来の研究は、単一層または複数の連続するニューロンの統計を考慮し、トリムすることを提案した。
我々は、アンサンブル学習を用いて、異なるデータバッチのモデルをトレーニングすることを提案する。
論文 参考訳(メタデータ) (2021-12-05T09:30:43Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。