Fugu-MT 論文翻訳(概要): COPAL: Continual Pruning in Large Language Generative Models

論文の概要: COPAL: Continual Pruning in Large Language Generative Models

arxiv url: http://arxiv.org/abs/2405.02347v2
Date: Fri, 14 Jun 2024 18:06:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 04:38:09.419080
Title: COPAL: Continual Pruning in Large Language Generative Models
Title（参考訳）: COPAL: 大規模言語生成モデルにおける連続的なプルーニング
Authors: Srikanth Malla, Joon Hee Choi, Chiho Choi,
Abstract要約: COPALは、連続的なモデル適応設定の下で、大規模言語生成モデルを解析するために開発されたアルゴリズムである。 LLMの様々なサイズに対する実験的な評価は,COPALがベースラインモデルより優れていることを示している。
参考スコア（独自算出の注目度）: 23.747878534962663
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Adapting pre-trained large language models to different domains in natural language processing requires two key considerations: high computational demands and model's inability to continual adaptation. To simultaneously address both issues, this paper presents COPAL (COntinual Pruning in Adaptive Language settings), an algorithm developed for pruning large language generative models under a continual model adaptation setting. While avoiding resource-heavy finetuning or retraining, our pruning process is guided by the proposed sensitivity analysis. The sensitivity effectively measures model's ability to withstand perturbations introduced by the new dataset and finds model's weights that are relevant for all encountered datasets. As a result, COPAL allows seamless model adaptation to new domains while enhancing the resource efficiency. Our empirical evaluation on a various size of LLMs show that COPAL outperforms baseline models, demonstrating its efficacy in efficiency and adaptability.
Abstract（参考訳）: 自然言語処理において、訓練済みの大規模言語モデルを異なる領域に適応させるには、高い計算要求と連続的な適応ができないモデルの2つの重要な考慮が必要である。両課題を同時に解決するために,大規模言語生成モデルを連続モデル適応条件下で解析するために開発されたCOPAL(Continual Pruning in Adaptive Language settings)を提案する。資源量の多い微調整や再訓練を回避しながら,提案した感度解析によって刈り取りプロセスが導かれる。この感度は、新しいデータセットによって導入された摂動に耐えるモデルの能力を効果的に測定し、遭遇したすべてのデータセットに関連するモデルの重みを見つける。その結果、COPALはリソース効率を高めつつ、新しいドメインへのシームレスなモデル適応を可能にする。 LLMの様々なサイズに関する実証実験により,COPALはベースラインモデルより優れ,効率と適応性において有効であることが示された。

関連論文リスト

Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models [2.83595986479415]
タスク固有データに対する細調整型マルチモーダル言語モデル(MLLM)は、下流アプリケーションの性能向上に有効な方法である。この問題を緩和しようとする既存の手法は、言語デコーダの深い層を微調整した場合や、モデルのサイズが大きくなるにつれて、効果が低下する。本稿では,MLLMの新しい細粒度調整手法であるModel-Dowserを提案する。
論文参考訳（メタデータ） (2026-02-04T12:56:27Z)
Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages [11.808922632545874]
我々は多言語自動音声認識モデルを分析し、U字型適応パターンを明らかにする。本稿では,各レイヤの役割に応じて適応能力を割り当てる,深層対応モデル適応フレームワークDAMAを提案する。 Damaは、最先端の精度とトレーニング可能なパラメータを80%削減し、極端なデータ不足下で29%のエラー削減を実現し、ベースラインよりもメモリ、トレーニング時間、計算効率を大幅に改善する。
論文参考訳（メタデータ） (2026-02-01T04:18:31Z)
Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文参考訳（メタデータ） (2025-05-13T01:00:12Z)
Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。 LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。 LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文参考訳（メタデータ） (2024-08-07T05:48:05Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-11-14T00:43:33Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文参考訳（メタデータ） (2021-09-27T15:04:00Z)
Evaluating the Robustness of Neural Language Models to Input Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文参考訳（メタデータ） (2021-08-27T12:31:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。