論文の概要: On the Importance of Data Size in Probing Fine-tuned Models
- arxiv url: http://arxiv.org/abs/2203.09627v1
- Date: Thu, 17 Mar 2022 21:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 13:53:30.732097
- Title: On the Importance of Data Size in Probing Fine-tuned Models
- Title(参考訳): 微調整モデル探索におけるデータサイズの重要性について
- Authors: Houman Mehrafarin, Sara Rajaee, Mohammad Taher Pilehvar
- Abstract要約: 符号化された言語知識の程度は、微調整サンプルの数に依存することを示す。
我々は、微調整データサイズがモデルの言語知識に対する変更の回復可能性に影響を及ぼす一連の実験を通して示す。
- 参考スコア(独自算出の注目度): 18.69409646532038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several studies have investigated the reasons behind the effectiveness of
fine-tuning, usually through the lens of probing. However, these studies often
neglect the role of the size of the dataset on which the model is fine-tuned.
In this paper, we highlight the importance of this factor and its undeniable
role in probing performance. We show that the extent of encoded linguistic
knowledge depends on the number of fine-tuning samples. The analysis also
reveals that larger training data mainly affects higher layers, and that the
extent of this change is a factor of the number of iterations updating the
model during fine-tuning rather than the diversity of the training samples.
Finally, we show through a set of experiments that fine-tuning data size
affects the recoverability of the changes made to the model's linguistic
knowledge.
- Abstract(参考訳): いくつかの研究は、通常、観察のレンズを通して、微調整の有効性の背景にある理由を調査している。
しかしながら、これらの研究はモデルが微調整されたデータセットのサイズの役割を無視することが多い。
本稿では,この因子の重要性と,その検証における否定できない役割について述べる。
符号化された言語知識の程度は、微調整サンプルの数に依存することを示す。
分析では、トレーニングデータが大きいことが主に上位層に影響し、この変化の程度が、トレーニングサンプルの多様性よりも、微調整中のモデル更新回数の要因であることも明らかになった。
最後に,データサイズを微調整することで,モデルの言語知識の変化の回復性に影響を及ぼすことを示す実験を行った。
関連論文リスト
- "Why" Has the Least Side Effect on Model Editing [25.67779910446609]
本稿では,モデル編集質問の分類による重要な因子探索型について検討する。
その結果, 性能劣化の程度は, 質問の種類によって大きく異なることがわかった。
また,バッチサイズが副作用に与える影響についても検討し,バッチサイズの増加が性能低下を軽減することを発見した。
論文 参考訳(メタデータ) (2024-09-27T12:05:12Z) - Word Matters: What Influences Domain Adaptation in Summarization? [43.7010491942323]
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
論文 参考訳(メタデータ) (2024-06-21T02:15:49Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - Exploring the Effects of Data Augmentation for Drivable Area
Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。
以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-06T03:39:37Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。