論文の概要: How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey
- arxiv url: http://arxiv.org/abs/2312.04775v1
- Date: Fri, 8 Dec 2023 01:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:35:29.079139
- Title: How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey
- Title(参考訳): ブラトフォース微調整を伴わない最強事前学習言語モデルの決定法
実証調査
- Authors: Jun Bai, Xiaofeng Zhang, Chen Li, Hanhua Hong, Xi Xu, Chenghua Lin,
Wenge Rong
- Abstract要約: その結果,H-Scoreは効率性や効率性に優れることがわかった。
また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
- 参考スコア(独自算出の注目度): 23.757740341834126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferability estimation has been attached to great attention in the
computer vision fields. Researchers try to estimate with low computational cost
the performance of a model when transferred from a source task to a given
target task. Considering the effectiveness of such estimations, the communities
of natural language processing also began to study similar problems for the
selection of pre-trained language models. However, there is a lack of a
comprehensive comparison between these estimation methods yet. Also, the
differences between vision and language scenarios make it doubtful whether
previous conclusions can be established across fields. In this paper, we first
conduct a thorough survey of existing transferability estimation methods being
able to find the most suitable model, then we conduct a detailed empirical
study for the surveyed methods based on the GLUE benchmark. From qualitative
and quantitative analyses, we demonstrate the strengths and weaknesses of
existing methods and show that H-Score generally performs well with
superiorities in effectiveness and efficiency. We also outline the difficulties
of consideration of training details, applicability to text generation, and
consistency to certain metrics which shed light on future directions.
- Abstract(参考訳): 転送可能性の推定はコンピュータビジョンの分野で大きな注目を集めている。
研究者は、ソースタスクから所定のターゲットタスクに転送された場合、モデルの性能を計算コストの低い見積りを試みる。
このような推定の有効性を考えると、自然言語処理のコミュニティも、事前学習された言語モデルの選択に関する同様の問題を研究し始めた。
しかし、これらの推定方法にはまだ包括的比較が欠けている。
また、視覚と言語シナリオの違いは、フィールドにまたがって以前の結論が確立できるかどうか疑わしい。
本稿では,まず,最も適切なモデルを見出すことのできる既存トランスファー可能性推定手法の徹底的な調査を行い,次いでglueベンチマークに基づく調査方法に関する詳細な実証実験を行った。
定性的かつ定量的な分析から,既存の手法の長所と短所を実証し,H-Scoreが有効性と有効性に優れることを示す。
また, 学習の詳細, テキスト生成への適用性, 今後の方向性を浮き彫りにしたメトリクスとの一貫性について, 考察の難しさについて概説する。
関連論文リスト
- Training on the Test Task Confounds Evaluation and Emergence [16.32378359459614]
テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを示します。
評価前のタスク関連データと比較し,各モデルを微調整することにより,テストタスクのトレーニングを効果的に調整する手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T17:57:58Z) - A step towards the integration of machine learning and small area
estimation [0.0]
本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
論文 参考訳(メタデータ) (2024-02-12T09:43:17Z) - Robust Visual Question Answering: Datasets, Methods, and Future
Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文 参考訳(メタデータ) (2023-07-21T10:12:09Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。