論文の概要: CommonsenseQA 2.0: Exposing the Limits of AI through Gamification
- arxiv url: http://arxiv.org/abs/2201.05320v1
- Date: Fri, 14 Jan 2022 06:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 13:58:30.526089
- Title: CommonsenseQA 2.0: Exposing the Limits of AI through Gamification
- Title(参考訳): CommonsenseQA 2.0: ゲーミフィケーションによるAIの限界の公開
- Authors: Alon Talmor, Ori Yoran, Ronan Le Bras, Chandra Bhagavatula, Yoav
Goldberg, Yejin Choi, Jonathan Berant
- Abstract要約: 現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
- 参考スコア(独自算出の注目度): 126.85096257968414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing benchmarks that test the abilities of modern natural language
understanding models is difficult - pre-trained language models exploit
artifacts in benchmarks to achieve human parity, but still fail on adversarial
examples and make errors that demonstrate a lack of common sense. In this work,
we propose gamification as a framework for data construction. The goal of
players in the game is to compose questions that mislead a rival AI while using
specific phrases for extra points. The game environment leads to enhanced user
engagement and simultaneously gives the game designer control over the
collected data, allowing us to collect high-quality data at scale. Using our
method we create CommonsenseQA 2.0, which includes 14,343 yes/no questions, and
demonstrate its difficulty for models that are orders-of-magnitude larger than
the AI used in the game itself. Our best baseline, the T5-based Unicorn with
11B parameters achieves an accuracy of 70.2%, substantially higher than GPT-3
(52.9%) in a few-shot inference setup. Both score well below human performance
which is at 94.1%.
- Abstract(参考訳): 近代自然言語理解モデルの能力をテストするベンチマークの構築は困難である。事前訓練された言語モデルは、人間の同等性を達成するためにベンチマークのアーティファクトを利用するが、相反する例では失敗し、常識の欠如を示すエラーを犯す。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
ゲームのプレイヤーのゴールは、特定のフレーズを余分な点に使いながら、ライバルのAIを誤解させる質問を組み立てることである。
ゲーム環境はユーザのエンゲージメントを高め、同時にゲームデザイナに収集したデータをコントロールさせ、高品質なデータを大規模に収集できるようにします。
この手法を用いて14,343のイエス/ノー質問を含むCommonsenseQA 2.0を作成し、ゲーム自体で使用されるAIよりも桁違いに大きいモデルの難しさを実証する。
我々の最高基準である11bパラメータのt5ベースのユニコーンは70.2%の精度を実現しており、数発の推測ではgpt-3(52.9%)よりもかなり高い。
いずれも94.1%の人的成績をはるかに下回っている。
関連論文リスト
- From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI [0.0]
本研究では,大規模言語モデル(LLM)の有効性について検討した。
モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。
回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
論文 参考訳(メタデータ) (2024-07-04T09:38:49Z) - ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales? [7.307538454513983]
本研究では,ChatGPTと人的評価のアライメントについて,複数の尺度で検討する。
3つのNLEデータセットから300のデータインスタンスをサンプリングし、900人のアノテーションを収集します。
以上の結果から,ChatGPTはより粗いスケールで人間とよく一致していることがわかった。
論文 参考訳(メタデータ) (2024-03-26T04:07:08Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors [3.39487428163997]
大規模言語モデルでは,ゲームからのイベントのテキスト記述のシーケンスにおいて,どのイベントがバギーであるかを識別できることを示す。
この結果から,ビデオゲームのバグ検出に言語モデルを用いた場合の有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-05T18:44:35Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。