論文の概要: Improving Reliability of Fine-tuning with Block-wise Optimisation
- arxiv url: http://arxiv.org/abs/2301.06133v1
- Date: Sun, 15 Jan 2023 16:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 17:13:02.019591
- Title: Improving Reliability of Fine-tuning with Block-wise Optimisation
- Title(参考訳): ブロックワイズ最適化による微調整の信頼性向上
- Authors: Basel Barakat and Qiang Huang
- Abstract要約: ファインタニングは知識を伝達することでドメイン固有のタスクに取り組むのに使うことができる。
本稿では,事前学習したモデルの層群を重み付けするブロックワイズ最適化機構を提案する。
提案されたアプローチは、頻繁に使用されるデータセットであるTf_flowerでテストされる。
- 参考スコア(独自算出の注目度): 6.83082949264991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning can be used to tackle domain-specific tasks by transferring
knowledge. Previous studies on finetuning focused on adapting only the weights
of a task-specific classifier or re-optimizing all layers of the pre-trained
model using the new task data. The first type of methods cannot mitigate the
mismatch between a pre-trained model and the new task data, and the second type
of methods easily cause over-fitting when processing tasks with limited data.
To explore the effectiveness of fine-tuning, we propose a novel block-wise
optimization mechanism, which adapts the weights of a group of layers of a
pre-trained model. In our work, the layer selection can be done in four
different ways. The first is layer-wise adaptation, which aims to search for
the most salient single layer according to the classification performance. The
second way is based on the first one, jointly adapting a small number of
top-ranked layers instead of using an individual layer. The third is block
based segmentation, where the layers of a deep network is segmented into blocks
by non-weighting layers, such as the MaxPooling layer and Activation layer. The
last one is to use a fixed-length sliding window to group layers block by
block. To identify which group of layers is the most suitable for finetuning,
the search starts from the target end and is conducted by freezing other layers
excluding the selected layers and the classification layers. The most salient
group of layers is determined in terms of classification performance. In our
experiments, the proposed approaches are tested on an often-used dataset,
Tf_flower, by finetuning five typical pre-trained models, VGG16, MobileNet-v1,
MobileNet-v2, MobileNet-v3, and ResNet50v2, respectively. The obtained results
show that the use of our proposed block-wise approaches can achieve better
performances than the two baseline methods and the layer-wise method.
- Abstract(参考訳): 微調整は知識を転送することでドメイン固有のタスクに取り組むのに使うことができる。
従来のファインタニングの研究は、タスク固有の分類器の重みのみを適応することや、新しいタスクデータを用いてトレーニング済みモデルのすべての層を再最適化することに焦点を当てていた。
第1の方法は、事前学習されたモデルと新しいタスクデータとのミスマッチを緩和できず、第2のタイプのメソッドは、限られたデータでタスクを処理する場合に、オーバーフィッティングを容易に発生させる。
微調整の有効性を検討するために,事前学習したモデルの層群の重みを適応する新しいブロックワイズ最適化機構を提案する。
私たちの仕事では、レイヤの選択は4つの異なる方法で行えます。
1つは層順適応であり、分類性能に応じて最も有望な単一層を探索することを目的としている。
第2の方法は第1の方法に基づいており、個々のレイヤを使用する代わりに、少数の上位層を共同で適用する。
3つ目はブロックベースのセグメンテーションで、深層ネットワークの層はMaxPooling層やActivation層のような非重み付け層によってブロックに分割される。
最後に、固定長のスライディングウィンドウを使用して、ブロック単位でレイヤをブロックする。
どの層がファインタニングに最も適しているかを特定するために、探索はターゲット端から始まり、選択した層と分類層を除く他の層を凍結することにより行われる。
最も健全な層群は分類性能の点で決定される。
実験では,vgg16,mobilenet-v1,mobilenet-v2,mobilenet-v3,resnet50v2の5種を微調整して,よく使われるデータセットであるtf_flower上で提案手法を検証した。
その結果,提案手法を用いることで,2つの基本法と層法よりも優れた性能が得られることがわかった。
関連論文リスト
- LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding [13.747101397628887]
大規模言語モデル(LLM)の高速化のためのエンドツーエンドのソリューションを提案する。
また,すべての変圧器層が同じ出口を共有できる早期の出口損失を,早期の層で低落率,後期の層で高落率,早期の出口損失に適用した。
このトレーニングレシピは、モデルに補助的なレイヤやモジュールを追加することなく、初期のレイヤでの早期退避の精度を高めることを示す。
論文 参考訳(メタデータ) (2024-04-25T16:20:23Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Learning the Right Layers: a Data-Driven Layer-Aggregation Strategy for
Semi-Supervised Learning on Multilayer Graphs [2.752817022620644]
多層グラフ上のクラスタリング(あるいはコミュニティ検出)は、さらにいくつかの複雑さを生じさせる。
主な課題の1つは、各レイヤがクラスタのイテレーションの割り当てにどの程度貢献するかを確立することである。
利用可能な入力ラベルから異なる層を最適に非線形に組み合わせたパラメータフリーなラプラシアン正規化モデルを提案する。
論文 参考訳(メタデータ) (2023-05-31T19:50:11Z) - Enhancing Classification with Hierarchical Scalable Query on Fusion
Transformer [0.4129225533930965]
本稿では,学習可能な独立クエリ埋め込みによる階層的手法により,きめ細かい分類を向上する手法を提案する。
階層構造の概念を利用して、あらゆるレベルにわたってスケーラブルなクエリの埋め込みを学びます。
本手法は, 細粒度分類において, 従来の手法よりも11%の精度で性能を向上できる。
論文 参考訳(メタデータ) (2023-02-28T11:00:55Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Surgical Fine-Tuning Improves Adaptation to Distribution Shifts [114.17184775397067]
分散シフト下での伝達学習の一般的なアプローチは、事前訓練されたモデルの最後の数層を微調整することである。
本稿は, 階層のサブセットを選択的に微調整する手法が, 一般的に用いられている微調整手法と一致し, 性能が良くないことを示す。
論文 参考訳(メタデータ) (2022-10-20T17:59:15Z) - Head2Toe: Utilizing Intermediate Representations for Better Transfer
Learning [31.171051511744636]
転送学習手法は、データリッチソースドメイン上で事前訓練されたモデルを用いて、データスカースターゲットドメインのパフォーマンスを向上させることを目的としている。
本稿では,ソースモデルのすべての層から特徴を抽出し,対象領域の分類ヘッドを訓練する手法であるHead2Toeを提案する。
論文 参考訳(メタデータ) (2022-01-10T18:40:07Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot
Learning [76.98364915566292]
一般的なプラクティスは、まずベースセット上でモデルをトレーニングし、その後、微調整によって新しいクラスに移行することである。
本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。
提案手法の有効性を実証するために, CUB と mini-ImageNet の広範な実験を行った。
論文 参考訳(メタデータ) (2021-02-08T03:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。