論文の概要: Who Needs Decoders? Efficient Estimation of Sequence-level Attributes
- arxiv url: http://arxiv.org/abs/2305.05098v1
- Date: Tue, 9 May 2023 00:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 14:12:58.357088
- Title: Who Needs Decoders? Efficient Estimation of Sequence-level Attributes
- Title(参考訳): デコーダは誰が必要か?
シーケンスレベル属性の効率的な推定
- Authors: Yassir Fathullah, Puria Radmard, Adian Liusie, Mark J. F. Gales
- Abstract要約: 非自己回帰プロキシモデルは、一般的なスカラー値のシーケンスレベル属性を効率的に予測できる。
NAPはBERTScore(MT)やワードエラーレート(ASR)などのパフォーマンス指標を予測することができる。
- 参考スコア(独自算出の注目度): 33.739213633494266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art sequence-to-sequence models often require autoregressive
decoding, which can be highly expensive. However, for some downstream tasks
such as out-of-distribution (OOD) detection and resource allocation, the actual
decoding output is not needed just a scalar attribute of this sequence. In
these scenarios, where for example knowing the quality of a system's output to
predict poor performance prevails over knowing the output itself, is it
possible to bypass the autoregressive decoding? We propose Non-Autoregressive
Proxy (NAP) models that can efficiently predict general scalar-valued
sequence-level attributes. Importantly, NAPs predict these metrics directly
from the encodings, avoiding the expensive autoregressive decoding stage. We
consider two sequence-to-sequence task: Machine Translation (MT); and Automatic
Speech Recognition (ASR). In OOD for MT, NAPs outperform a deep ensemble while
being significantly faster. NAPs are also shown to be able to predict
performance metrics such as BERTScore (MT) or word error rate (ASR). For
downstream tasks, such as data filtering and resource optimization, NAPs
generate performance predictions that outperform predictive uncertainty while
being highly inference efficient.
- Abstract(参考訳): state-of-the-art sequence-to-sequenceモデルは、しばしば自己回帰デコードを必要とする。
しかし、out-of-distribution (ood) 検出やリソース割り当てのような下流タスクでは、実際のデコード出力は、このシーケンスのスカラー属性だけでは必要ない。
これらのシナリオでは、例えば、システムの出力の品質を知ることで、アウトプット自体を知るよりもパフォーマンスの悪さを予測できる場合、自動回帰デコーディングを回避できますか?
一般的なスカラー値のシーケンスレベルの属性を効率的に予測できる非自己回帰プロキシ(NAP)モデルを提案する。
重要なことに、napはこれらのメトリクスをエンコーディングから直接予測し、高価な自己回帰デコーディングステージを避ける。
機械翻訳 (mt) と自動音声認識 (asr) の2つの作業について検討した。
OOD for MTでは、NAPははるかに高速で深いアンサンブルを上回ります。
NAPはBERTScore(MT)やワードエラーレート(ASR)といったパフォーマンス指標を予測可能であることも示されている。
データフィルタリングやリソース最適化といった下流タスクでは、NAPは高い推論効率を保ちながら予測の不確実性を上回るパフォーマンス予測を生成する。
関連論文リスト
- Pattern-Matching Dynamic Memory Network for Dual-Mode Traffic Prediction [11.99118889081249]
トラフィック予測のためのパターンマッチング動的メモリネットワーク(PM-DMNet)を提案する。
PM-DMNetは、O(N)複雑さだけでトラフィックパターンの特徴を捉えるために、新しい動的メモリネットワークを採用している。
提案モデルは既存のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2024-08-12T15:12:30Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Out-of-Distribution Detection and Selective Generation for Conditional
Language Models [40.15896981028647]
条件付き言語モデル(CLM)は、出力シーケンスで次のトークンを分類するために主に訓練される。
CLMの高精度かつ軽量なOOD検出法を提案する。
提案手法は,高品質な出力を選択的に生成するために,分布シフトの一般的かつ現実的な設定の下でどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-09-30T16:17:11Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Imputer: Sequence Modelling via Imputation and Dynamic Programming [101.5705527605346]
Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
本稿では,ログ限界確率の低い動的プログラミング学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T18:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。