論文の概要: How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey
- arxiv url: http://arxiv.org/abs/2312.04775v1
- Date: Fri, 8 Dec 2023 01:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:35:29.079139
- Title: How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey
- Title(参考訳): ブラトフォース微調整を伴わない最強事前学習言語モデルの決定法
実証調査
- Authors: Jun Bai, Xiaofeng Zhang, Chen Li, Hanhua Hong, Xi Xu, Chenghua Lin,
Wenge Rong
- Abstract要約: その結果,H-Scoreは効率性や効率性に優れることがわかった。
また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
- 参考スコア(独自算出の注目度): 23.757740341834126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferability estimation has been attached to great attention in the
computer vision fields. Researchers try to estimate with low computational cost
the performance of a model when transferred from a source task to a given
target task. Considering the effectiveness of such estimations, the communities
of natural language processing also began to study similar problems for the
selection of pre-trained language models. However, there is a lack of a
comprehensive comparison between these estimation methods yet. Also, the
differences between vision and language scenarios make it doubtful whether
previous conclusions can be established across fields. In this paper, we first
conduct a thorough survey of existing transferability estimation methods being
able to find the most suitable model, then we conduct a detailed empirical
study for the surveyed methods based on the GLUE benchmark. From qualitative
and quantitative analyses, we demonstrate the strengths and weaknesses of
existing methods and show that H-Score generally performs well with
superiorities in effectiveness and efficiency. We also outline the difficulties
of consideration of training details, applicability to text generation, and
consistency to certain metrics which shed light on future directions.
- Abstract(参考訳): 転送可能性の推定はコンピュータビジョンの分野で大きな注目を集めている。
研究者は、ソースタスクから所定のターゲットタスクに転送された場合、モデルの性能を計算コストの低い見積りを試みる。
このような推定の有効性を考えると、自然言語処理のコミュニティも、事前学習された言語モデルの選択に関する同様の問題を研究し始めた。
しかし、これらの推定方法にはまだ包括的比較が欠けている。
また、視覚と言語シナリオの違いは、フィールドにまたがって以前の結論が確立できるかどうか疑わしい。
本稿では,まず,最も適切なモデルを見出すことのできる既存トランスファー可能性推定手法の徹底的な調査を行い,次いでglueベンチマークに基づく調査方法に関する詳細な実証実験を行った。
定性的かつ定量的な分析から,既存の手法の長所と短所を実証し,H-Scoreが有効性と有効性に優れることを示す。
また, 学習の詳細, テキスト生成への適用性, 今後の方向性を浮き彫りにしたメトリクスとの一貫性について, 考察の難しさについて概説する。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - Training on the Test Task Confounds Evaluation and Emergence [16.32378359459614]
テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを示します。
評価前のタスク関連データと比較し,各モデルを微調整することにより,テストタスクのトレーニングを効果的に調整する手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T17:57:58Z) - A step towards the integration of machine learning and small area
estimation [0.0]
本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
論文 参考訳(メタデータ) (2024-02-12T09:43:17Z) - Robust Visual Question Answering: Datasets, Methods, and Future
Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文 参考訳(メタデータ) (2023-07-21T10:12:09Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。