論文の概要: Can NLP Models 'Identify', 'Distinguish', and 'Justify' Questions that
Don't have a Definitive Answer?
- arxiv url: http://arxiv.org/abs/2309.04635v1
- Date: Fri, 8 Sep 2023 23:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:29:51.388590
- Title: Can NLP Models 'Identify', 'Distinguish', and 'Justify' Questions that
Don't have a Definitive Answer?
- Title(参考訳): NLPモデルは、決定的回答を持たない質問を「識別」、「識別」、「正当化」できるか?
- Authors: Ayushi Agarwal, Nisarg Patel, Neeraj Varshney, Mihir Parmar, Pavan
Mallina, Aryan Bhavin Shah, Srihari Raju Sangaraju, Tirth Patel, Nihar
Thakkar, Chitta Baral
- Abstract要約: 現実世界のアプリケーションでは、ユーザは決定的な答えを持たない質問をすることが多い。
QnotAは、明確な答えを持たない5つのカテゴリの質問からなるデータセットである。
このデータを用いて、システムの「識別」、「識別」、QnotA質問を「正当化」する能力をテストする3つの評価タスクを定式化する。
GPT-3 や Flan T5 といった SOTA モデルでさえ,これらのタスクはうまく行っていない。
- 参考スコア(独自算出の注目度): 43.03399918557937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Though state-of-the-art (SOTA) NLP systems have achieved remarkable
performance on a variety of language understanding tasks, they primarily focus
on questions that have a correct and a definitive answer. However, in
real-world applications, users often ask questions that don't have a definitive
answer. Incorrectly answering such questions certainly hampers a system's
reliability and trustworthiness. Can SOTA models accurately identify such
questions and provide a reasonable response?
To investigate the above question, we introduce QnotA, a dataset consisting
of five different categories of questions that don't have definitive answers.
Furthermore, for each QnotA instance, we also provide a corresponding QA
instance i.e. an alternate question that ''can be'' answered. With this data,
we formulate three evaluation tasks that test a system's ability to 'identify',
'distinguish', and 'justify' QnotA questions. Through comprehensive
experiments, we show that even SOTA models including GPT-3 and Flan T5 do not
fare well on these tasks and lack considerably behind the human performance
baseline. We conduct a thorough analysis which further leads to several
interesting findings. Overall, we believe our work and findings will encourage
and facilitate further research in this important area and help develop more
robust models.
- Abstract(参考訳): 最先端(SOTA)のNLPシステムは、様々な言語理解タスクにおいて顕著なパフォーマンスを達成しているが、それらは主に正しい決定的な答えを持つ質問に焦点を当てている。
しかし、現実世界のアプリケーションでは、ユーザーは決定的な答えのない質問をすることが多い。
このような質問に対する誤った回答は,システムの信頼性と信頼性を損なうことは間違いありません。
SOTAモデルはそのような質問を正確に識別し、合理的な応答を提供できるか?
そこで本研究では,5つのカテゴリの質問から成るデータセットであるQnotAを紹介した。
さらに、各QnotAインスタンスに対して、対応するQAインスタンスを提供する。
本研究では,システムの「識別」,「識別」,「正当化」の能力をテストする3つの評価タスクを定式化する。
GPT-3 や Flan T5 などの SOTA モデルでさえ,これらの課題にうまく対応せず,人為的な性能ベースラインをかなり欠いていることを示す。
我々は、いくつかの興味深い発見を導く詳細な分析を行う。
全体として、我々の研究と発見は、この重要な領域におけるさらなる研究を奨励し、促進し、より堅牢なモデルの開発に役立つと信じています。
関連論文リスト
- Which questions should I answer? Salience Prediction of Inquisitive Questions [118.097974193544]
非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。
質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
論文 参考訳(メタデータ) (2024-04-16T21:33:05Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Model Analysis & Evaluation for Ambiguous Question Answering [0.0]
質問回答モデルは、しばしば矛盾する情報の断片を組み合わせた長文の回答を生成するために必要である。
この分野の最近の進歩は、流動的な応答を発生させる強力な能力を示しているが、いくつかの研究課題は未解決のままである。
これらの側面を徹底的に調査し、現在のアプローチの限界について貴重な洞察を提供することを目指しています。
論文 参考訳(メタデータ) (2023-05-21T15:20:20Z) - "John is 50 years old, can his son be 65?" Evaluating NLP Models'
Understanding of Feasibility [19.47954905054217]
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。
GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
論文 参考訳(メタデータ) (2022-10-14T02:46:06Z) - RealTime QA: What's the Answer Right Now? [137.04039209995932]
本稿では,動的質問応答(QA)プラットフォームであるREALTIME QAを紹介する。
GPT-3 や T5 など,大規模事前学習型言語モデルに基づく強力なベースラインモデルを構築した。
GPT-3は、検索された文書が答えを見つけるのに十分な情報を提供していない場合、時代遅れの回答を返す傾向がある。
論文 参考訳(メタデータ) (2022-07-27T07:26:01Z) - ASQA: Factoid Questions Meet Long-Form Answers [35.11889930792675]
この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。
曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。
我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
論文 参考訳(メタデータ) (2022-04-12T21:58:44Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - ProtoQA: A Question Answering Dataset for Prototypical Common-Sense
Reasoning [35.6375880208001]
本稿では,人工知能システムの常識推論能力をトレーニングし,評価するための新しい質問応答データセットを提案する。
トレーニングセットは、長期にわたる国際ゲームショーFAMILY-FEUDでプレイされている既存の質問セットから収集される。
また,モデルがランク付けされた回答リストを出力しなければならない生成的評価タスクを提案する。
論文 参考訳(メタデータ) (2020-05-02T09:40:05Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。