論文の概要: Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability
- arxiv url: http://arxiv.org/abs/2009.04095v1
- Date: Wed, 9 Sep 2020 04:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 11:40:12.792314
- Title: Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability
- Title(参考訳): モデル非依存性を考慮したクロスドメインデータの言語モデルの比較研究
- Authors: Mayank Chhipa, Hrushikesh Mahesh Vazurkar, Abhijeet Kumar, Mridul
Mishra
- Abstract要約: この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent influx of bidirectional contextualized transformer language
models in the NLP, it becomes a necessity to have a systematic comparative
study of these models on variety of datasets. Also, the performance of these
language models has not been explored on non-GLUE datasets. The study presented
in paper compares the state-of-the-art language models - BERT, ELECTRA and its
derivatives which include RoBERTa, ALBERT and DistilBERT. We conducted
experiments by finetuning these models for cross domain and disparate data and
penned an in-depth analysis of model's performances. Moreover, an
explainability of language models coherent with pretraining is presented which
verifies the context capturing capabilities of these models through a model
agnostic approach. The experimental results establish new state-of-the-art for
Yelp 2013 rating classification task and Financial Phrasebank sentiment
detection task with 69% accuracy and 88.2% accuracy respectively. Finally, the
study conferred here can greatly assist industry researchers in choosing the
language model effectively in terms of performance or compute efficiency.
- Abstract(参考訳): 最近のNLPにおける双方向文脈変換言語モデルの流入により、これらのモデルを様々なデータセット上で体系的な比較研究を行う必要がある。
また、これらの言語モデルの性能は、GLUE以外のデータセットでは調査されていない。
本稿では,RoBERTa, ALBERT, DistilBERTなど,最先端の言語モデルであるBERT, ELECTRAとその派生品を比較した。
クロスドメインと異種データに対してこれらのモデルを微調整して実験を行い,モデルの性能を詳細に分析した。
さらに、モデル非依存アプローチを通じてこれらのモデルのコンテキストキャプチャ能力を検証するために、事前学習と一貫性のある言語モデルの説明可能性を示す。
実験結果は、Yelp 2013格付けタスクとFinancial Phrasebank格付けタスクの69%の精度と88.2%の精度で、新たな最先端技術を確立した。
最後に、この研究は、パフォーマンスや計算効率の観点から、業界研究者が言語モデルを効果的に選択するのを大いに助けることができる。
関連論文リスト
- The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder
Language Models [60.53467388496444]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
我々は、RAVENがATLASを著しく上回り、特定のシナリオにおいて最も先進的な言語モデルに匹敵する結果が得られることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Sensitivity and Robustness of Large Language Models to Prompt Template
in Japanese Text Classification Tasks [0.0]
重要な問題は、Promptテンプレートに対する大きな言語モデルの不適切な感度と堅牢性である。
本稿では,複数の代表言語モデル (LLM) と広く活用されている事前学習モデル (PLM) の包括的評価を通じて,この問題を考察する。
Promptテンプレートの文構造の変更により, GPT-4の精度は49.21から25.44に大幅に低下した。
論文 参考訳(メタデータ) (2023-05-15T15:19:08Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - ANNA: Enhanced Language Representation for Question Answering [5.713808202873983]
事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。
本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。
我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
論文 参考訳(メタデータ) (2022-03-28T05:26:52Z) - A Comparative Study on Language Models for Task-Oriented Dialogue
Systems [14.634286037008017]
タスク指向対話(ToD)システムでは、言語モデルを使ってエンドツーエンドのトレーニングを行うことができる。
BARTとT5は、BLEUとF1でGPTベースのモデルより優れ、ToDシステムで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-21T13:24:25Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。