Fugu-MT 論文翻訳(概要): HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation

論文の概要: HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation

arxiv url: http://arxiv.org/abs/2305.04573v1
Date: Mon, 8 May 2023 09:31:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 14:58:46.858556
Title: HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation
Title（参考訳）: hifi: パラメータ効率の高いモデル適応のための高情報注意ヘッド
Authors: Anchun Gui and Han Xiao
Abstract要約: パラメータ効率の高い微調整手法であるHiFiを提案する。まず,2つの情報豊かさと相関性の観点から,頭部間の関係をグラフにモデル化し,各頭部の相対的重要性を決定するためにPageRankアルゴリズムを適用した。 GLUEベンチマークを用いた実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能が得られることを示す。
参考スコア（独自算出の注目度）: 0.8409934249521909
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To fully leverage the advantages of large-scale pre-trained language models (PLMs) on downstream tasks, it has become a ubiquitous adaptation paradigm to fine-tune the entire parameters of PLMs. However, this paradigm poses issues of inefficient updating and resource over-consuming for fine-tuning in data-scarce and resource-limited scenarios, because of the large scale of parameters in PLMs. To alleviate these concerns, in this paper, we propose a parameter-efficient fine-tuning method HiFi, that is, only the highly informative and strongly correlated attention heads for the specific task are fine-tuned. To search for those significant attention heads, we develop a novel framework to analyze the effectiveness of heads. Specifically, we first model the relationship between heads into a graph from two perspectives of information richness and correlation, and then apply PageRank algorithm to determine the relative importance of each head. Extensive experiments on the GLUE benchmark demonstrate the effectiveness of our method, and show that HiFi obtains state-of-the-art performance over the prior baselines.
Abstract（参考訳）: ダウンストリームタスクにおける大規模事前学習言語モデル(plm)の利点を十分に活用するため、plmのパラメータ全体を微調整するユビキタス適応パラダイムとなった。しかし、このパラダイムは、PLMの大規模なパラメーターのため、データスカースおよびリソース制限シナリオの微調整に非効率な更新とリソース過剰の問題を提起する。そこで本稿では,これらの課題を緩和するため,パラメータ効率の良い微調整法hifiを提案する。注目度の高い頭部を探索するために,頭部の有効性を分析するための新しい枠組みを開発した。具体的には、まず、情報豊かさと相関性の2つの視点から頭部間の関係をグラフにモデル化し、次にPageRankアルゴリズムを適用して各頭部の相対的重要性を決定する。 GLUEベンチマークの大規模な実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能を得ることを示す。

関連論文リスト

Optimizing Data Augmentation through Bayesian Model Selection [23.92102364966058]
データ拡張(DA)の最適化のための新しいフレームワークを提案する。 DAの確率論的視点から、拡張パラメータをモデル(ハイパー)-パラメータとして解釈する。モデルパラメータと組み合わせて拡張パラメータを最適化できる抽出可能なエビデンス下境界(ELBO)を導出する。
論文参考訳（メタデータ） (2025-05-27T22:44:36Z)
ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models [14.657194214702473]
本稿では,最もタスクに敏感なアテンションヘッドをローカライズし,これらのヘッドに対するアテンショントレーニングの更新を制限したアルゴリズムを提案する。実験の結果,3つのタスクのベースラインよりも2%の性能向上を実現しつつ,微調整中に注目パラメータの10%しか活性化しないことがわかった。
論文参考訳（メタデータ） (2025-05-24T17:19:34Z)
Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。 DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-04-26T18:31:14Z)
Parameter Efficient Merging for Multimodal Large Language Models with Complementary Parameter Adaptation [17.39117429338763]
相補的パラメータ適応を用いたトレーニング不要なパラメータ効率的なマージ手法であるCoPA-Mergingを提案する。多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文参考訳（メタデータ） (2025-02-24T13:52:05Z)
UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文参考訳（メタデータ） (2024-12-21T19:01:57Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement [0.7558576228782637]
我々は、効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。提案手法は,ソースモデル作成およびターゲット側適応のための改良されたパラダイムを導入する。我々は,本フレームワークが様々なSFDA法と互換性があり,計算効率が高いことを実証した。
論文参考訳（メタデータ） (2024-10-03T02:12:03Z)
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models [54.02863371927658]
大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。 Ferretは、LLMのスケーラブルなフルパラメータチューニングを実現するために、ランダム性を共有する最初の一階法である。フェレットは高い計算効率、通信オーバーヘッドの低減、高速収束を実現する。
論文参考訳（メタデータ） (2024-09-10T07:28:13Z)
Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文参考訳（メタデータ） (2024-06-13T16:30:32Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文参考訳（メタデータ） (2024-03-05T09:12:49Z)
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark [97.8968058408759]
事前学習された視覚モデル(PVM)は、幅広い下流の視覚タスクに顕著な適応性を示した。これらのモデルが数十億または数兆のパラメータにスケールするにつれて、計算と記憶の要求が高いため、従来の完全な微調整はますます非現実的になっている。パラメータ効率の良いファインチューニング(PEFT)は、モデルパラメータを最小限に調整しながら、完全なファインチューニングに匹敵するパフォーマンスを実現するための、有望な代替手段として登場した。
論文参考訳（メタデータ） (2024-02-03T19:12:20Z)
Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文参考訳（メタデータ） (2023-11-03T06:34:37Z)
Fairer and More Accurate Tabular Models Through NAS [14.147928131445852]
本稿では,多目的ニューラルアーキテクチャサーチ (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。我々はNASで精度のみに最適化されたモデルが、本質的に公正な懸念に対処できないことをしばしば示している。公平性、正確性、あるいは両方において、最先端のバイアス緩和手法を一貫して支配するアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-10-18T17:56:24Z)
Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文参考訳（メタデータ） (2023-09-07T09:22:05Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文参考訳（メタデータ） (2022-02-06T20:07:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。