論文の概要: Can we do that simpler? Simple, Efficient, High-Quality Evaluation
Metrics for NLG
- arxiv url: http://arxiv.org/abs/2209.09593v1
- Date: Tue, 20 Sep 2022 10:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:44:33.400316
- Title: Can we do that simpler? Simple, Efficient, High-Quality Evaluation
Metrics for NLG
- Title(参考訳): 簡単にできますか?
NLGのための簡易, 効率的, 高品質評価指標
- Authors: Jens Gr\"unwald, Christoph Leiter, Steffen Eger
- Abstract要約: BERTScore、MoverScore、BARTScore、XMoverScoreなどの計算量の多いトランスフォーマーを軽量バージョンで置き換える。
3つの異なる機械翻訳データセットから評価した6つの評価指標(モノリンガルとマルチリンガルの両方)について考察する。
- 参考スコア(独自算出の注目度): 19.792304805269094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore efficient evaluation metrics for Natural Language Generation
(NLG). To implement efficient metrics, we replace (i) computation-heavy
transformers in metrics such as BERTScore, MoverScore, BARTScore, XMoverScore,
etc. with lighter versions (such as distilled ones) and (ii) cubic inference
time alignment algorithms such as Word Mover Distance with linear and quadratic
approximations. We consider six evaluation metrics (both monolingual and
multilingual), assessed on three different machine translation datasets, and 16
light-weight transformers as replacement. We find, among others, that (a)
TinyBERT shows best quality-efficiency tradeoff for semantic similarity metrics
of the BERTScore family, retaining 97\% quality and being 5x faster at
inference time on average, (b) there is a large difference in speed-ups on CPU
vs. GPU (much higher speed-ups on CPU), and (c) WMD approximations yield no
efficiency gains but lead to a substantial drop in quality on 2 out of 3
datasets we examine.
- Abstract(参考訳): 自然言語生成(NLG)の効率的な評価指標について検討する。
効率的なメトリクスを実現するために
(i) bertscore、moverscore、bartscore、xmoverscoreなどのメトリクスにおける計算量の多いトランスフォーマーと、より軽いバージョン(蒸留したものなど)と
(ii)線形および二次近似による単語移動距離などの立方的推論時間アライメントアルゴリズム。
6つの評価指標(単言語と多言語の両方)を3つの異なる機械翻訳データセットで評価し,16個の軽量トランスフォーマーを代替として検討した。
私たちは、とりわけ、それを見つける。
(a)TinyBERTはBERTScoreファミリーのセマンティック類似度指標に最適な品質効率のトレードオフを示し、平均推定時間では99%の品質を維持し、5倍高速である。
(b)CPUとGPUのスピードアップには大きな違いがあり(CPUのスピードアップがかなり高い)、
(c) WMD近似は効率性は向上しないが, 検討した3つのデータセットのうち2つに対して, 品質が著しく低下する。
関連論文リスト
- Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z) - SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning [11.745775952171607]
初期残基を注入することによりPEFTを増強するSimple BOosterであるSIBOを提案する。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
論文 参考訳(メタデータ) (2024-02-19T07:22:29Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for
Efficient Training and Inference [71.39286164015104]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。
MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。
我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文 参考訳(メタデータ) (2021-04-21T16:50:01Z) - SQE: a Self Quality Evaluation Metric for Parameters Optimization in
Multi-Object Tracking [25.723436561224297]
本稿では,パラメータ最適化のための新しい自己品質評価指標SQEを提案する。
対照的に、我々の計量は軌道仮説の内部特性を反映し、真理を示さずに性能を追跡する。
論文 参考訳(メタデータ) (2020-04-16T06:07:29Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。