論文の概要: Multi-Stage Influence Function
- arxiv url: http://arxiv.org/abs/2007.09081v1
- Date: Fri, 17 Jul 2020 16:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 12:54:53.629577
- Title: Multi-Stage Influence Function
- Title(参考訳): 多段階影響関数
- Authors: Hongge Chen, Si Si, Yang Li, Ciprian Chelba, Sanjiv Kumar, Duane
Boning, Cho-Jui Hsieh
- Abstract要約: 我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
- 参考スコア(独自算出の注目度): 97.19210942277354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-stage training and knowledge transfer, from a large-scale pretraining
task to various finetuning tasks, have revolutionized natural language
processing and computer vision resulting in state-of-the-art performance
improvements. In this paper, we develop a multi-stage influence function score
to track predictions from a finetuned model all the way back to the pretraining
data. With this score, we can identify the pretraining examples in the
pretraining task that contribute most to a prediction in the finetuning task.
The proposed multi-stage influence function generalizes the original influence
function for a single model in (Koh & Liang, 2017), thereby enabling influence
computation through both pretrained and finetuned models. We study two
different scenarios with the pretrained embeddings fixed or updated in the
finetuning tasks. We test our proposed method in various experiments to show
its effectiveness and potential applications.
- Abstract(参考訳): 大規模事前学習タスクから様々な微調整タスクへの多段階訓練と知識伝達は、自然言語処理とコンピュータビジョンに革命をもたらし、最先端のパフォーマンス向上をもたらした。
本稿では,事前学習データまで遡って,微調整モデルから予測をトラックする多段階影響関数スコアを開発する。
このスコアを用いて,事前学習タスクにおける事前学習の例を特定し,微調整タスクの予測に最も寄与する。
提案する多段階インフルエンサー関数は,単一モデル (koh & liang, 2017) における元のインフルエンサー関数を一般化し,事前学習モデルと微調整モデルの両方によるインフルエンサー計算を可能にする。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
提案手法を様々な実験で検証し,その有効性と可能性を示す。
関連論文リスト
- DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Exploring Example Influence in Continual Learning [26.85320841575249]
連続学習(CL)は、より良い安定性(S)と塑性(P)を達成することを目的として、人間のような新しいタスクを順次学習する
S と P の影響をトレーニング例で調べるには,SP の改善に向けた学習パターンの改善が期待できる。
本稿では、IFの摂動における2つの重要なステップをシミュレートし、S-およびP-認識の例の影響を得るための、シンプルで効果的なMetaSPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-25T15:17:37Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。