論文の概要: "John is 50 years old, can his son be 65?" Evaluating NLP Models'
Understanding of Feasibility
- arxiv url: http://arxiv.org/abs/2210.07471v1
- Date: Fri, 14 Oct 2022 02:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:25:37.094409
- Title: "John is 50 years old, can his son be 65?" Evaluating NLP Models'
Understanding of Feasibility
- Title(参考訳): 「ジョンは50歳です、彼の息子は65歳ですか?」
NLPモデルによる可能性理解の評価
- Authors: Himanshu Gupta, Neeraj Varshney, Swaroop Mishra, Kuntal Kumar Pal,
Saurabh Arjun Sawant, Kevin Scaria, Siddharth Goyal, Chitta Baral
- Abstract要約: この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。
GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
- 参考スコア(独自算出の注目度): 19.47954905054217
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In current NLP research, large-scale language models and their abilities are
widely being discussed. Some recent works have also found notable failures of
these models. Often these failure examples involve complex reasoning abilities.
This work focuses on a simple commonsense ability, reasoning about when an
action (or its effect) is feasible. We introduce FeasibilityQA, a
question-answering dataset involving binary classification (BCQ) and
multi-choice multi-correct questions (MCQ) that test understanding of
feasibility. We show that even state-of-the-art models such as GPT-3 struggle
to answer the feasibility questions correctly. Specifically, on (MCQ, BCQ)
questions, GPT-3 achieves accuracy of just (19%, 62%) and (25%, 64%) in
zero-shot and few-shot settings, respectively. We also evaluate models by
providing relevant knowledge statements required to answer the question and
find that the additional knowledge leads to a 7% gain in performance, but the
overall performance still remains low. These results make one wonder how much
commonsense knowledge about action feasibility is encoded in GPT-3 and how well
the model can reason about it.
- Abstract(参考訳): 現在のNLP研究では、大規模言語モデルとその能力が広く議論されている。
最近の研究でもこれらのモデルの顕著な失敗が報告されている。
これらの失敗例は複雑な推論能力を含むことが多い。
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。
本稿では,二分分類(BCQ)と複数選択質問(MCQ)を含む質問応答データセットであるFeasibilityQAを紹介する。
GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
特に (MCQ, BCQ) の質問では, GPT-3 は0ショット設定でそれぞれ19%, 62%, (25%, 64%) の精度を達成している。
また、質問に答えるために必要な関連する知識ステートメントを提供することでモデルを評価し、追加の知識がパフォーマンスの7%向上につながることを確認しました。
これらの結果は,行動実現可能性に関する共通知識が GPT-3 にどの程度エンコードされているか,モデルがどの程度うまく理解できるかを疑問に思う。
関連論文リスト
- R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - A Step Closer to Comprehensive Answers: Constrained Multi-Stage Question
Decomposition with Large Language Models [43.10340493000934]
私たちは"Decompose-and-Query"フレームワーク(D&Q)を紹介します。
このフレームワークはモデルにReActに似た外部知識を考え、活用するよう誘導する。
ChitChatQAデータセットでは、67%のケースでD&QはChatGPTに負けません。
論文 参考訳(メタデータ) (2023-11-13T17:28:03Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Can NLP Models 'Identify', 'Distinguish', and 'Justify' Questions that
Don't have a Definitive Answer? [43.03399918557937]
現実世界のアプリケーションでは、ユーザは決定的な答えを持たない質問をすることが多い。
QnotAは、明確な答えを持たない5つのカテゴリの質問からなるデータセットである。
このデータを用いて、システムの「識別」、「識別」、QnotA質問を「正当化」する能力をテストする3つの評価タスクを定式化する。
GPT-3 や Flan T5 といった SOTA モデルでさえ,これらのタスクはうまく行っていない。
論文 参考訳(メタデータ) (2023-09-08T23:12:03Z) - Negated Complementary Commonsense using Large Language Models [3.42658286826597]
この研究は、コモンセンスのシナリオで否定された補完的な質問に対する答えを見つけることに重点を置いている。
本稿では,否定的な相補的シナリオにおける性能向上のためのモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:03:48Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。