Fugu-MT 論文翻訳(概要): W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models

論文の概要: W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models

arxiv url: http://arxiv.org/abs/2504.15983v1
Date: Tue, 22 Apr 2025 15:33:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 17:41:48.392375
Title: W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models
Title（参考訳）: 軽量言語モデルの効率的な探索のためのW-PCAに基づくグラディエントフリープロキシ
Authors: Shang Wang,
Abstract要約: 軽量言語モデルに適したゼロショットNAS法である重み付きPCA(W-PCA)を提案する。我々はGLUEとSQuADデータセットの比較分析を行い、我々のアプローチを評価する。
参考スコア（独自算出の注目度）: 2.0033725235099986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The demand for efficient natural language processing (NLP) systems has led to the development of lightweight language models. Previous work in this area has primarily focused on manual design or training-based neural architecture search (NAS) methods. Recently, zero-shot NAS methods have been proposed for evaluating language models without the need for training. However, prevailing approaches to zero-shot NAS often face challenges such as biased evaluation metrics and computational inefficiencies. In this paper, we introduce weight-weighted PCA (W-PCA), a novel zero-shot NAS method specifically tailored for lightweight language models. Our approach utilizes two evaluation proxies: the parameter count and the number of principal components with cumulative contribution exceeding $\eta$ in the feed-forward neural (FFN) layer. Additionally, by eliminating the need for gradient computations, we optimize the evaluation time, thus enhancing the efficiency of designing and evaluating lightweight language models. We conduct a comparative analysis on the GLUE and SQuAD datasets to evaluate our approach. The results demonstrate that our method significantly reduces training time compared to one-shot NAS methods and achieves higher scores in the testing phase compared to previous state-of-the-art training-based methods. Furthermore, we perform ranking evaluations on a dataset sampled from the FlexiBERT search space. Our approach exhibits superior ranking correlation and further reduces solving time compared to other zero-shot NAS methods that require gradient computation.
Abstract（参考訳）: 効率的な自然言語処理(NLP)システムへの需要は、軽量言語モデルの開発に繋がった。この分野におけるこれまでの研究は、主に手動設計やトレーニングベースのニューラルアーキテクチャサーチ(NAS)手法に重点を置いていた。近年,学習を必要とせずに言語モデルを評価するため,ゼロショットNAS法が提案されている。しかしながら、ゼロショットNASに対する一般的なアプローチは、バイアス評価メトリクスや計算の非効率といった課題に直面していることが多い。本稿では,軽量言語モデルに適したゼロショットNAS法である重み付きPCA(W-PCA)を提案する。提案手法では,パラメータ数と累積コントリビューションが$\eta$を超える主成分数という2つの評価プロキシをフィードフォワードニューラル(FFN)層で用いる。さらに、勾配計算を不要にすることで、評価時間を最適化し、軽量言語モデルの設計と評価の効率化を図る。 GLUEデータセットとSQuADデータセットの比較分析を行い、我々のアプローチを評価する。その結果,本手法は1ショットNAS法と比較してトレーニング時間を有意に短縮し,従来の最先端のトレーニングベース法と比較してテストフェーズで高いスコアを得ることができた。さらに,FlexiBERT検索空間から抽出したデータセットのランキング評価を行う。本手法は、勾配計算を必要とする他のゼロショットNAS法と比較して、より優れたランキング相関を示し、解法時間を短縮する。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
GradAlign for Training-free Model Performance Inference [11.578933730530832]
トレーニングフリーなニューラルアーキテクチャサーチ(NAS)は、広範なトレーニングを必要とせずに理想的なアーキテクチャを発見することを目的としている。 GradAlignは、トレーニングを必要とせずにモデルパフォーマンスを推論するために設計された、シンプルで効果的な方法である。
論文参考訳（メタデータ） (2024-11-29T16:27:55Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文参考訳（メタデータ） (2024-08-07T05:48:05Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Accelerating Multi-Objective Neural Architecture Search by Random-Weight Evaluation [24.44521525130034]
我々は,CNNの品質を定量化するために,RWE(Random-Weight Evaluation)と呼ばれる新しい性能評価指標を導入する。 RWEは最後の層のみをトレーニングし、残りの層をランダムに重み付けする。提案手法は,2つの実世界の探索空間における最先端性能を持つ効率的なモデルの集合を求める。
論文参考訳（メタデータ） (2021-10-08T06:35:20Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Efficient Model Performance Estimation via Feature Histories [27.008927077173553]
ニューラルネットワーク設計のタスクにおける重要なステップは、モデルの性能を評価することである。この研究では、トレーニングの初期段階におけるネットワークの機能の進化履歴を使用して、プロキシ分類器を構築します。本手法は,複数の探索アルゴリズムと組み合わせ,より幅広いタスクに対するより良い解を見つけることができることを示す。
論文参考訳（メタデータ） (2021-03-07T20:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。