論文の概要: Can Transformer Models Measure Coherence In Text? Re-Thinking the
Shuffle Test
- arxiv url: http://arxiv.org/abs/2107.03448v1
- Date: Wed, 7 Jul 2021 19:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:38:57.367725
- Title: Can Transformer Models Measure Coherence In Text? Re-Thinking the
Shuffle Test
- Title(参考訳): 変圧器モデルによるテキストのコヒーレンスの測定
シャッフルテストの再調整
- Authors: Philippe Laban and Luke Dai and Lucas Bandarkar and Marti A. Hearst
- Abstract要約: シュッフルテストは、NLPモデルがテキストのコヒーレンスを計測できるかどうかを評価する最も一般的なタスクである。
我々は、RoBERTaモデルを単純に微調整することで、ほぼ完全な97.8%の精度が得られることを示した。
この卓越したパフォーマンスは、テキストコヒーレンスの良いモデルに繋がる可能性は低いと我々は主張する。
- 参考スコア(独自算出の注目度): 19.289535673462574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Shuffle Test is the most common task to evaluate whether NLP models can
measure coherence in text. Most recent work uses direct supervision on the
task; we show that by simply finetuning a RoBERTa model, we can achieve a near
perfect accuracy of 97.8%, a state-of-the-art. We argue that this outstanding
performance is unlikely to lead to a good model of text coherence, and suggest
that the Shuffle Test should be approached in a Zero-Shot setting: models
should be evaluated without being trained on the task itself. We evaluate
common models in this setting, such as Generative and Bi-directional
Transformers, and find that larger architectures achieve high-performance
out-of-the-box. Finally, we suggest the k-Block Shuffle Test, a modification of
the original by increasing the size of blocks shuffled. Even though human
reader performance remains high (around 95% accuracy), model performance drops
from 94% to 78% as block size increases, creating a conceptually simple
challenge to benchmark NLP models. Code available:
https://github.com/tingofurro/shuffle_test/
- Abstract(参考訳): シュッフルテストは、NLPモデルがテキストのコヒーレンスを計測できるかどうかを評価する最も一般的なタスクである。
最近の研究では、RoBERTaモデルを微調整するだけで、最先端の97.8%に近い精度を達成できることが示されている。
我々は、この卓越したパフォーマンスがテキストコヒーレンスの良いモデルにつながる可能性は低いと主張し、Shuffleテストがゼロショット設定でアプローチされるべきであることを示唆している。
我々は、生成トランスや双方向トランスフォーマなどの一般的なモデルを評価し、より大きなアーキテクチャが最初から高い性能を実現することを見出します。
最後に、ブロックのシャッフルサイズを増大させることにより、元の修正であるk-Block Shuffle Testを提案する。
人間の読み取り性能は高い(95%の精度)が、ブロックサイズが大きくなるにつれてモデル性能は94%から78%に低下し、NLPモデルをベンチマークする概念上は単純な課題となっている。
コード提供: https://github.com/tingofurro/shuffle_test/
関連論文リスト
- LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order [10.362659730151591]
視覚変換器はテスト時に任意の層の実行順序に適応可能であることを示す。
また、トレーニングされたモデル同士をランダムにマージすることで、機能的な「フランケンシュタイン」モデルが得られることもわかりました。
論文 参考訳(メタデータ) (2024-07-05T13:54:15Z) - Transformer models as an efficient replacement for statistical test suites to evaluate the quality of random numbers [0.0]
我々は,複数のNIST STSテストを一度に実行し,より高速に実行するディープラーニングモデルを提案する。
このモデルでは,これらの統計的試験に合格して,複数ラベルの分類結果を出力する。
また,このモデルと従来の深層学習法を比較し,そのモデルが類似した性能を示した。
論文 参考訳(メタデータ) (2024-05-06T23:36:03Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。