論文の概要: UNICORN on RAINBOW: A Universal Commonsense Reasoning Model on a New
Multitask Benchmark
- arxiv url: http://arxiv.org/abs/2103.13009v1
- Date: Wed, 24 Mar 2021 06:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:07:46.557333
- Title: UNICORN on RAINBOW: A Universal Commonsense Reasoning Model on a New
Multitask Benchmark
- Title(参考訳): UNICORN on RAINBOW: 新しいマルチタスクベンチマークに基づくユニバーサルコモンセンス推論モデル
- Authors: Nicholas Lourie, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi
- Abstract要約: 常識モデルを評価する2つの新しい方法を提案します。
まず,複数のタスクやデータセットにまたがる共通認識モデルの研究を促進するために,新しいベンチマークとしてレインボーを提案する。
第2に,新しい評価法であるコスト等価曲線を提案し,ソースデータセットの選択,事前学習された言語モデル,トランスファー学習手法がパフォーマンスとデータ効率にどのような影響を及ぼすか,新たな知見を与える。
- 参考スコア(独自算出の注目度): 40.13805528158547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonsense AI has long been seen as a near impossible goal -- until
recently. Now, research interest has sharply increased with an influx of new
benchmarks and models.
We propose two new ways to evaluate commonsense models, emphasizing their
generality on new tasks and building on diverse, recently introduced
benchmarks. First, we propose a new multitask benchmark, RAINBOW, to promote
research on commonsense models that generalize well over multiple tasks and
datasets. Second, we propose a novel evaluation, the cost equivalent curve,
that sheds new insight on how the choice of source datasets, pretrained
language models, and transfer learning methods impacts performance and data
efficiency.
We perform extensive experiments -- over 200 experiments encompassing 4800
models -- and report multiple valuable and sometimes surprising findings, e.g.,
that transfer almost always leads to better or equivalent performance if
following a particular recipe, that QA-based commonsense datasets transfer well
with each other, while commonsense knowledge graphs do not, and that perhaps
counter-intuitively, larger models benefit more from transfer than smaller
ones.
Last but not least, we introduce a new universal commonsense reasoning model,
UNICORN, that establishes new state-of-the-art performance across 8 popular
commonsense benchmarks, aNLI (87.3%), CosmosQA (91.8%), HellaSWAG (93.9%), PIQA
(90.1%), SocialIQa (83.2%), WinoGrande (86.6%), CycIC (94.0%) and CommonsenseQA
(79.3%).
- Abstract(参考訳): Commonsense AIは、最近まで、ほぼ不可能な目標と見なされてきた。
現在、新しいベンチマークやモデルが流入し、研究の関心が激増している。
我々は、共通意味モデルを評価する2つの新しい方法を提案し、新しいタスクの汎用性を強調し、最近導入された様々なベンチマークに基づいて構築する。
まず,複数のタスクやデータセットにまたがる共通認識モデルの研究を促進するために,新しいマルチタスクベンチマークであるレインボーを提案する。
第2に,新しい評価法であるコスト等価曲線を提案し,ソースデータセットの選択,事前学習された言語モデル,トランスファー学習手法がパフォーマンスとデータ効率にどのような影響を及ぼすか,新たな知見を与える。
例えば、転送が特定のレシピに従うと、QAベースのコモンセンスデータセットが互いにうまく転送されるのに対して、コモンセンスの知識グラフはそうではないし、もっと大きなモデルの方が小さなものよりも転送の恩恵を受ける、というように。
最後に、UNICORNという新しいユニバーサルコモンセンス推論モデルを導入し、一般的なコモンセンスベンチマーク8つのベンチマーク、aNLI (87.3%)、CosmosQA (91.8%)、HellaSWAG (93.9%)、PIQA (90.1%)、SocialIQa (83.2%)、WinoGrande (86.6%)、CycIC (94.0%)、CommonsenseQA (79.3%)にまたがる新しい最先端パフォーマンスを確立する。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Generative Adversarial Networks for Annotated Data Augmentation in Data
Sparse NLU [0.76146285961466]
データスパーシティは、自然言語理解におけるモデル開発に関連する重要な課題の1つです。
GAN (Sequence Generative Adversarial Network) を用いたトレーニングデータ拡張によるNLUモデルの性能向上について報告する。
本実験により, 逐次生成逆数ネットワークを用いて生成した合成データにより, 複数の指標間で大きな性能向上が得られた。
論文 参考訳(メタデータ) (2020-12-09T20:38:17Z) - MultiCQA: Zero-Shot Transfer of Self-Supervised Text Matching Models on
a Massive Scale [64.11709427403008]
テキストマッチングモデルのゼロショット転送能力を大規模に検討し,140個のソースドメイン上での自己教師型トレーニングを行った。
すべての140モデルが驚くほどうまく転送され、ほとんどのモデルが一般的なIRベースラインより大幅に優れています。
論文 参考訳(メタデータ) (2020-10-02T13:22:12Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。