Fugu-MT 論文翻訳(概要): Breaking through Deterministic Barriers: Randomized Pruning Mask Generation and Selection

論文の概要: Breaking through Deterministic Barriers: Randomized Pruning Mask Generation and Selection

arxiv url: http://arxiv.org/abs/2310.13183v2
Date: Thu, 11 Jan 2024 04:17:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 03:20:26.789956
Title: Breaking through Deterministic Barriers: Randomized Pruning Mask Generation and Selection
Title（参考訳）: 決定論的障壁を破る:ランダムなプルーニングマスクの生成と選択
Authors: Jianwei Li, Weizhi Gao, Qi Lei, Dongkuan Xu
Abstract要約: 我々は大きなモデルを訓練し、その冗長なニューロンや重みを刈り取ることで除去する。このアプローチはGLUEから8つのデータセットにまたがる最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 29.375460634415806
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: It is widely acknowledged that large and sparse models have higher accuracy than small and dense models under the same model size constraints. This motivates us to train a large model and then remove its redundant neurons or weights by pruning. Most existing works pruned the networks in a deterministic way, the performance of which solely depends on a single pruning criterion and thus lacks variety. Instead, in this paper, we propose a model pruning strategy that first generates several pruning masks in a designed random way. Subsequently, along with an effective mask-selection rule, the optimal mask is chosen from the pool of mask candidates. To further enhance efficiency, we introduce an early mask evaluation strategy, mitigating the overhead associated with training multiple masks. Our extensive experiments demonstrate that this approach achieves state-of-the-art performance across eight datasets from GLUE, particularly excelling at high levels of sparsity.
Abstract（参考訳）: 大型モデルとスパースモデルは同じモデルサイズ制約の下で、小型モデルと高密度モデルよりも精度が高いことが広く認識されている。これは大きなモデルを訓練し、その冗長なニューロンや重みを刈り取ることで除去する動機となります。既存の作品の多くは決定論的にネットワークをプルーンし、その性能は単一のプルーニング基準のみに依存するため、バラエティを欠いている。そこで本研究では,まず複数のプルーニングマスクをランダムに生成するモデルプルーニング戦略を提案する。その後、効果的なマスク選択規則とともに、最適なマスクをマスク候補のプールから選択する。さらに効率を高めるために,複数のマスクのトレーニングに伴うオーバーヘッドを軽減する早期マスク評価戦略を導入する。我々の広範な実験により、この手法はGLUEから8つのデータセットにまたがる最先端のパフォーマンスを実現している。

関連論文リスト

Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文参考訳（メタデータ） (2025-01-03T20:19:14Z)
Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:02:28Z)
ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning [17.638387297838936]
微調整の大きな言語モデル(LLM)はコストがかかる。 PEFTはパラメータのごく一部をトレーニングすることでこの問題に対処し、その成功は事前訓練されたモデルの表現性と柔軟性を明らかにする。本稿では,PEFTの限界について検討し,その設計をさらに単純化し,標準設定を超えてトレーニング可能なパラメータの数を削減した。予測される学習率が大きいと、ランダムマスキングはトレーニング可能なパラメータを少なくして、様々なタスクにおける標準PEFTアルゴリズムの性能と一致させることができる。
論文参考訳（メタデータ） (2024-05-04T07:44:18Z)
Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2024-02-27T13:55:17Z)
Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文参考訳（メタデータ） (2021-11-26T18:58:22Z)
Masksembles for Uncertainty Estimation [60.400102501013784]
ディープニューラルネットワークは、その強みを巧みに実証しているが、その予測の信頼性を推定することは依然として困難である。深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。 mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。
論文参考訳（メタデータ） (2020-12-15T14:39:57Z)
Investigating and Simplifying Masking-based Saliency Methods for Model Interpretability [5.387323728379395]
画像の最も情報性の高い領域を識別する残差マップは、モデル解釈可能性に有用である。唾液マップを作成するための一般的なアプローチは、画像の一部をマスクする入力マスクを生成することである。マスキングモデルでは,クラス毎に10個のサンプルをトレーニングすることが可能であり,ローカライズエラーが0.7ポイントしか増加せず,いまだにサリエンシマップを生成可能であることを示す。
論文参考訳（メタデータ） (2020-10-19T18:00:36Z)
Improving Self-supervised Pre-training via a Fully-Explored Masked Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文参考訳（メタデータ） (2020-10-12T21:28:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。