論文の概要: Evidence > Intuition: Transferability Estimation for Encoder Selection
- arxiv url: http://arxiv.org/abs/2210.11255v1
- Date: Thu, 20 Oct 2022 13:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:32:57.081442
- Title: Evidence > Intuition: Transferability Estimation for Encoder Selection
- Title(参考訳): 証拠>直観:エンコーダ選択のための伝達可能性推定
- Authors: Elisa Bassignana and Max M\"uller-Eberstein and Mike Zhang and Barbara
Plank
- Abstract要約: 我々は、全ての候補を微調整することなく、目標タスクにおいてどのLMが最善を尽くすかを予測する定量的な証拠を生成する。
我々は,コンピュータビジョン(CV)のLogME(Logarithm Maximum of Evidence)尺度を採用し,94%のセットアップにおいて,最終的なLM性能と正の相関関係があることを見出した。
- 参考スコア(独自算出の注目度): 16.490047604583882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increase in availability of large pre-trained language models (LMs)
in Natural Language Processing (NLP), it becomes critical to assess their fit
for a specific target task a priori - as fine-tuning the entire space of
available LMs is computationally prohibitive and unsustainable. However,
encoder transferability estimation has received little to no attention in NLP.
In this paper, we propose to generate quantitative evidence to predict which
LM, out of a pool of models, will perform best on a target task without having
to fine-tune all candidates. We provide a comprehensive study on LM ranking for
10 NLP tasks spanning the two fundamental problem types of classification and
structured prediction. We adopt the state-of-the-art Logarithm of Maximum
Evidence (LogME) measure from Computer Vision (CV) and find that it positively
correlates with final LM performance in 94% of the setups. In the first study
of its kind, we further compare transferability measures with the de facto
standard of human practitioner ranking, finding that evidence from quantitative
metrics is more robust than pure intuition and can help identify unexpected LM
candidates.
- Abstract(参考訳): 自然言語処理(NLP)における大規模事前学習言語モデル(LM)の可用性の向上に伴い、利用可能なLMの空間全体を微調整することは、計算的に禁止され、持続不可能であるため、特定の目標タスクに適合するかどうかを評価することが重要になる。
しかし,NLPではエンコーダの転送可能性評価はほとんど注目されていない。
本稿では,モデルプール内において,全ての候補を微調整することなく,目標タスクにおいてどのLMが最善を尽くすかを予測する定量的なエビデンスを生成することを提案する。
分類と構造予測の2つの基本的な問題にまたがる10個のNLPタスクのLMランキングに関する総合的研究を行った。
我々は,コンピュータビジョン (cv) からの最先端の最大エビデンス (logme) 尺度を採用し, 94% のセットアップにおいて最終 lm 性能と正の相関を示した。
この種の最初の研究では、トランスファービリティ対策と人間の実践者ランキングのデファクトスタンダードを比較し、量的指標の証拠が純粋な直観よりも頑健であり、予期せぬLM候補を特定するのに役立つことを発見した。
関連論文リスト
- CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - VL4Pose: Active Learning Through Out-Of-Distribution Detection For Pose
Estimation [79.50280069412847]
VL4Poseは、分布外検出によるアクティブな学習のための第一原理的アプローチである。
我々の解は、最大推定により訓練された単純なパラメトリックベイズネットワークを介してポーズをモデル化することを含む。
我々はMPII, LSP, ICVLの3つのデータセットに対して定性的かつ定量的な実験を行い, 人手ポーズ推定を行った。
論文 参考訳(メタデータ) (2022-10-12T09:03:55Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Prompting as Probing: Using Language Models for Knowledge Base
Construction [1.6050172226234583]
我々は,2020年にOpenAIが提案した大規模言語モデルであるGPT-3を利用したProP(Prompting as Probing)を提案する。
ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。
評価の結果,提案手法は最終的な予測精度を大幅に向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-23T16:03:50Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - Sort by Structure: Language Model Ranking as Dependency Probing [25.723591566201343]
事前学習型言語モデル (LM) のインフォームドな選択は、性能上重要であるが、環境上はコストがかかる。
本稿では,LMの文脈的埋め込みからラベル付き木が回復可能な程度を計測することにより,特定の言語における依存関係を解析するために,LMのランク付けを提案する。
本手法は,46のタイプ的およびアーキテクチャ的に多様なLM言語対に対して,計算量の少ない命令の79%のLM選択を,計算量の少ない命令のフルグレードのトレーニングよりも最適に予測する。
論文 参考訳(メタデータ) (2022-06-10T08:10:29Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。