Fugu-MT 論文翻訳(概要): Can we do that simpler? Simple, Efficient, High-Quality Evaluation Metrics for NLG

論文の概要: Can we do that simpler? Simple, Efficient, High-Quality Evaluation Metrics for NLG

arxiv url: http://arxiv.org/abs/2209.09593v1
Date: Tue, 20 Sep 2022 10:12:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 17:44:33.400316
Title: Can we do that simpler? Simple, Efficient, High-Quality Evaluation Metrics for NLG
Title（参考訳）: 簡単にできますか? NLGのための簡易, 効率的, 高品質評価指標
Authors: Jens Gr\"unwald, Christoph Leiter, Steffen Eger
Abstract要約: BERTScore、MoverScore、BARTScore、XMoverScoreなどの計算量の多いトランスフォーマーを軽量バージョンで置き換える。 3つの異なる機械翻訳データセットから評価した6つの評価指標(モノリンガルとマルチリンガルの両方)について考察する。
参考スコア（独自算出の注目度）: 19.792304805269094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore efficient evaluation metrics for Natural Language Generation (NLG). To implement efficient metrics, we replace (i) computation-heavy transformers in metrics such as BERTScore, MoverScore, BARTScore, XMoverScore, etc. with lighter versions (such as distilled ones) and (ii) cubic inference time alignment algorithms such as Word Mover Distance with linear and quadratic approximations. We consider six evaluation metrics (both monolingual and multilingual), assessed on three different machine translation datasets, and 16 light-weight transformers as replacement. We find, among others, that (a) TinyBERT shows best quality-efficiency tradeoff for semantic similarity metrics of the BERTScore family, retaining 97\% quality and being 5x faster at inference time on average, (b) there is a large difference in speed-ups on CPU vs. GPU (much higher speed-ups on CPU), and (c) WMD approximations yield no efficiency gains but lead to a substantial drop in quality on 2 out of 3 datasets we examine.
Abstract（参考訳）: 自然言語生成(NLG)の効率的な評価指標について検討する。効率的なメトリクスを実現するために (i) bertscore、moverscore、bartscore、xmoverscoreなどのメトリクスにおける計算量の多いトランスフォーマーと、より軽いバージョン(蒸留したものなど)と (ii)線形および二次近似による単語移動距離などの立方的推論時間アライメントアルゴリズム。 6つの評価指標(単言語と多言語の両方)を3つの異なる機械翻訳データセットで評価し,16個の軽量トランスフォーマーを代替として検討した。私たちは、とりわけ、それを見つける。 (a)TinyBERTはBERTScoreファミリーのセマンティック類似度指標に最適な品質効率のトレードオフを示し、平均推定時間では99%の品質を維持し、5倍高速である。 (b)CPUとGPUのスピードアップには大きな違いがあり(CPUのスピードアップがかなり高い)、 (c) WMD近似は効率性は向上しないが, 検討した3つのデータセットのうち2つに対して, 品質が著しく低下する。

関連論文リスト

IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。 IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文参考訳（メタデータ） (2025-07-16T06:39:11Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.5749416770494706]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて大幅に改善されている。 LLMはリソース集約型であり、トレーニングと推論の両方に広範な計算資源を必要とする。導入が加速するにつれて、LLMの持続性は重要な問題となっている。
論文参考訳（メタデータ） (2025-01-14T16:02:33Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文参考訳（メタデータ） (2024-09-19T16:23:03Z)
Evaluating Language Models for Efficient Code Generation [13.175840119811]
大規模言語モデル(LLM)を確実に評価するための微分性能評価(DPE)を導入する。 DPEは、効率を要求するプログラミングタスクに焦点を当て、パフォーマンス評価のための洞察に富んだ複合メトリクスを確立する。概念実証として、私たちはDPEを使用して、121のコードタスクのパフォーマンスを満足させるベンチマークであるEvalPerfを作成します。
論文参考訳（メタデータ） (2024-08-12T18:59:13Z)
A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文参考訳（メタデータ） (2024-07-23T08:40:27Z)
Lower-Left Partial AUC: An Effective and Efficient Optimization Metric for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。 LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文参考訳（メタデータ） (2024-02-29T13:58:33Z)
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-23T16:37:59Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。 MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文参考訳（メタデータ） (2021-04-21T16:50:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。