論文の概要: STLM Engineering Report: Dropout
- arxiv url: http://arxiv.org/abs/2409.05423v1
- Date: Mon, 9 Sep 2024 08:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:20:29.168366
- Title: STLM Engineering Report: Dropout
- Title(参考訳): STLMエンジニアリングレポート: ドロップアウト
- Authors: Dylan Hillier, Leon Guertler, Bobby Cheng, Cheston Tan,
- Abstract要約: オーバーフィッティングシナリオでは,ドロップアウトが依然として有効であり,過剰なデータであってもモデルの適合性を改善するための何らかの関連性があることが判明した。
このプロセスでは、この性能向上の背後にあるメカニズムに関する既存の説明は、言語モデリングでは適用できないことがわかった。
- 参考スコア(独自算出の注目度): 4.3600359083731695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we explore the relevance of dropout for modern language models, particularly in the context of models on the scale of <100M parameters. We explore it's relevance firstly in the regime of improving the sample efficiency of models given small, high quality datasets, and secondly in the regime of improving the quality of its fit on larger datasets where models may underfit. We find that concordant with conventional wisdom, dropout remains effective in the overfitting scenario, and that furthermore it may have some relevance for improving the fit of models even in the case of excess data, as suggested by previous research. In the process we find that the existing explanation for the mechanism behind this performance gain is not applicable in the case of language modelling.
- Abstract(参考訳): 本研究では,現代の言語モデル,特に<100M>パラメータのスケールに関するモデルの文脈におけるドロップアウトの関連性について検討する。
第一に、小型で高品質なデータセットが与えられたモデルのサンプル効率を改善する体制、第二に、モデルが不適合な大きなデータセットに適合する品質を改善する体制において、その妥当性について検討する。
従来の知恵と一致して, 降雨はオーバーフィットシナリオにおいて有効であり, さらに, 過剰なデータの場合においても, モデルの適合性向上に何らかの関連性があることが, 以前の研究で示唆された。
このプロセスでは、この性能向上の背後にあるメカニズムに関する既存の説明は、言語モデリングでは適用できないことがわかった。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Self-attention Presents Low-dimensional Knowledge Graph Embeddings for
Link Prediction [6.789370732159177]
セルフアテンションは、エンティティとリレーションにクエリ依存のプロジェクションを適用するための鍵である。
我々のモデルは、最新の3つの最先端の競合製品よりも好意的に、あるいは優れたパフォーマンスを達成しています。
論文 参考訳(メタデータ) (2021-12-20T16:11:01Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。