論文の概要: CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP
Deep Learning Architectures on Commonsense Reasoning Task
- arxiv url: http://arxiv.org/abs/2006.01205v2
- Date: Sat, 18 Jul 2020 15:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:34:51.876930
- Title: CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP
Deep Learning Architectures on Commonsense Reasoning Task
- Title(参考訳): SemEval-2020 Task 4におけるCS-NLPチーム:Commonsense Reasoning Taskにおける最先端NLPディープラーニングアーキテクチャの評価
- Authors: Sirwe Saeedi, Aliakbar Panahi, Seyran Saeedi, Alvis C Fong
- Abstract要約: 本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。
本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。
第2のサブタスクでは、声明が意味をなさない理由を選択するため、27人の参加者のうち、最初の6チーム(93.7%)で非常に競争力のある結果が得られます。
- 参考スコア(独自算出の注目度): 3.058685580689605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate a commonsense inference task that unifies
natural language understanding and commonsense reasoning. We describe our
attempt at SemEval-2020 Task 4 competition: Commonsense Validation and
Explanation (ComVE) challenge. We discuss several state-of-the-art deep
learning architectures for this challenge. Our system uses prepared labeled
textual datasets that were manually curated for three different natural
language inference subtasks. The goal of the first subtask is to test whether a
model can distinguish between natural language statements that make sense and
those that do not make sense. We compare the performance of several language
models and fine-tuned classifiers. Then, we propose a method inspired by
question/answering tasks to treat a classification problem as a multiple choice
question task to boost the performance of our experimental results (96.06%),
which is significantly better than the baseline. For the second subtask, which
is to select the reason why a statement does not make sense, we stand within
the first six teams (93.7%) among 27 participants with very competitive
results. Our result for last subtask of generating reason against the nonsense
statement shows many potentials for future researches as we applied the most
powerful generative model of language (GPT-2) with 6.1732 BLEU score among
first four teams.
- Abstract(参考訳): 本稿では,自然言語理解と常識推論を統合する共通意味推論タスクについて検討する。
本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。
この課題に対して,最先端のディープラーニングアーキテクチャについて論じる。
本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。
最初のサブタスクの目標は、モデルが意味のある自然言語ステートメントと意味のないステートメントを区別できるかどうかをテストすることである。
いくつかの言語モデルと微調整分類器の性能を比較する。
そこで本研究では,質問/回答課題に触発され,分類問題を複数の選択質問課題として扱い,実験結果(96.06%)の性能を向上させる手法を提案する。
第2のサブタスクは、ステートメントが意味をなさない理由を選択することで、27人の参加者のうち最初の6チーム(93.7%)で非常に競争的な結果が得られます。
本研究は,4チームのうち6.1732 BLEUスコアが最強である言語生成モデル(GPT-2)を適用した結果,今後の研究の可能性を示すものである。
関連論文リスト
- AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning [0.0]
SemEval 2024 BRAINTEASERタスクは、分散思考のための言語モデルの能力をテストすることを目的としている。
複数の選択アーキテクチャにおいて、最先端の事前学習モデルを活用することで、包括的な戦略を採用する。
提案手法はセンテンスパズルサブタスクにおいて92.5%の精度、ワードパズルサブタスクでは80.2%の精度を実現している。
論文 参考訳(メタデータ) (2024-05-16T18:26:38Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - LRG at SemEval-2021 Task 4: Improving Reading Comprehension with
Abstract Words using Augmentation, Linguistic Features and Voting [0.6850683267295249]
フィリングインザブランクタイプの質問を考えると、タスクは5つのオプションのリストから最適な単語を予測することです。
マスク付き言語モデリング(MLM)タスクで事前訓練されたトランスフォーマーベースのモデルのエンコーダを使用して、Fill-in-the-Blank(FitB)モデルを構築します。
本稿では,BERT の入力長制限に対処するため,チャンク投票や Max Context という変種を提案する。
論文 参考訳(メタデータ) (2021-02-24T12:33:12Z) - GUIR at SemEval-2020 Task 12: Domain-Tuned Contextualized Models for
Offensive Language Detection [27.45642971636561]
OffensEval 2020タスクには、攻撃的言語(Sub-task A)の存在の特定、攻撃的言語(Sub-task B)のターゲットの存在の特定、ターゲットのカテゴリ(Sub-task C)の識別の3つのサブタスクが含まれている。
サブタスクAのF1スコアは91.7%、サブタスクBの66.5%、サブタスクCの63.2%である。
論文 参考訳(メタデータ) (2020-07-28T20:45:43Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。