論文の概要: ANA at SemEval-2020 Task 4: mUlti-task learNIng for cOmmonsense
reasoNing (UNION)
- arxiv url: http://arxiv.org/abs/2006.16403v1
- Date: Mon, 29 Jun 2020 21:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:40:22.596271
- Title: ANA at SemEval-2020 Task 4: mUlti-task learNIng for cOmmonsense
reasoNing (UNION)
- Title(参考訳): ANA at SemEval-2020 Task 4: mUlti-task learNIng for cOmmonsense reasoNing (UNION)
- Authors: Anandh Perumal, Chenyang Huang, Amine Trabelsi, Osmar R. Za\"iane
- Abstract要約: 我々は,SemEval 2020 Task 4のタスクCに提出されたcOmmonsense reasoNing(UNION)システムについて,mUlti-task learNIngについて述べる。
提案システムでは,提案手法の性能が向上するだけでなく,人的評価において最高2.10点のスコアで競争相手に勝る結果を得た。
- 参考スコア(独自算出の注目度): 2.7909383131523486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe our mUlti-task learNIng for cOmmonsense reasoNing
(UNION) system submitted for Task C of the SemEval2020 Task 4, which is to
generate a reason explaining why a given false statement is non-sensical.
However, we found in the early experiments that simple adaptations such as
fine-tuning GPT2 often yield dull and non-informative generations (e.g. simple
negations). In order to generate more meaningful explanations, we propose
UNION, a unified end-to-end framework, to utilize several existing commonsense
datasets so that it allows a model to learn more dynamics under the scope of
commonsense reasoning. In order to perform model selection efficiently,
accurately and promptly, we also propose a couple of auxiliary automatic
evaluation metrics so that we can extensively compare the models from different
perspectives. Our submitted system not only results in a good performance in
the proposed metrics but also outperforms its competitors with the highest
achieved score of 2.10 for human evaluation while remaining a BLEU score of
15.7. Our code is made publicly available at GitHub.
- Abstract(参考訳): 本稿では,SemEval2020 Task 4 のタスク C に対して提出された cOmmonsense reasoNing (UNION) システムの mUlti-task learNIng について述べる。
しかし、初期の実験で、微調整 GPT2 のような単純な適応は、しばしば鈍く非形式的な世代(単純な否定など)をもたらすことが判明した。
より意味のある説明を生成するために、我々はいくつかの既存のコモンセンスデータセットを利用する統一的なエンドツーエンドフレームワークUNIONを提案し、モデルがコモンセンス推論の範囲内でより多くのダイナミクスを学習できるようにする。
また,モデル選択を効率よく,正確に,迅速に行うために,異なる視点からモデルを比較するために,補助的な自動評価指標をいくつか提案する。
提案システムは,提案した指標において優れた性能を示すだけでなく,BLEUスコアを15.7に保ちながら,人的評価において最高2.10のスコアで競合に勝っている。
私たちのコードはGitHubで公開されています。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector [156.43671738038657]
本稿では,GCoNet+と呼ばれる新しいグループ協調学習ネットワークを提案する。
GCoNet+は自然界における共存対象を効果的かつ効率的に識別することができる。
論文 参考訳(メタデータ) (2022-05-30T23:49:19Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Temporal Action Localization Using Gated Recurrent Units [6.091096843566857]
本稿では, Gated Recurrent Unit (GRU) に基づく新しいネットワークと, TALタスクのための2つの新しい後処理手法を提案する。
具体的には、GRU-Splittedモデルと呼ばれる、GRUの出力層に対する新しい設計を提案する。
提案手法の性能を最先端手法と比較して評価する。
論文 参考訳(メタデータ) (2021-08-07T06:25:29Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - IIE-NLP-Eyas at SemEval-2021 Task 4: Enhancing PLM for ReCAM with
Special Tokens, Re-Ranking, Siamese Encoders and Back Translation [8.971288666318719]
本稿では,SemEval-2021 Task 4: Reading of Abstract Meaningの3つのサブタスクについて紹介する。
バックボーンモデル(RoBERTa)に適応した多くの単純かつ効果的なアプローチをうまく設計する。
実験結果から,本手法はベースラインシステムと比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-02-25T10:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。