論文の概要: Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering
with Multi-Granularity Answers
- arxiv url: http://arxiv.org/abs/2401.04695v1
- Date: Tue, 9 Jan 2024 17:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:15:41.656282
- Title: Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering
with Multi-Granularity Answers
- Title(参考訳): 知識評価のギャップを狭める:多粒度回答を用いたオープンドメイン質問応答
- Authors: Gal Yona, Roee Aharoni, Mor Geva
- Abstract要約: 本稿では,複数粒度回答の集合に対する精度と情報性の観点から,予測された回答を評価できる新しい評価手法を提案する。
実験の結果, 標準復号化を伴う大規模言語モデルでは, しばしば誤解となるような特定の解を生成する傾向が示された。
多粒度回答で評価すると、DRAGは平均で20ポイント近く精度が上昇し、希少物質はさらに増加する。
- 参考スコア(独自算出の注目度): 24.516758290933545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Factual questions typically can be answered correctly at different levels of
granularity. For example, both ``August 4, 1961'' and ``1961'' are correct
answers to the question ``When was Barack Obama born?''. Standard question
answering (QA) evaluation protocols, however, do not explicitly take this into
account and compare a predicted answer against answers of a single granularity
level. In this work, we propose GRANOLA QA, a novel evaluation setting where a
predicted answer is evaluated in terms of accuracy and informativeness against
a set of multi-granularity answers. We present a simple methodology for
enriching existing datasets with multi-granularity answers, and create
GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We
evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm,
called Decoding with Response Aggregation (DRAG), that is geared towards
aligning the response granularity with the model's uncertainty. Our experiments
show that large language models with standard decoding tend to generate
specific answers, which are often incorrect. In contrast, when evaluated on
multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy
on average, which further increases for rare entities. Overall, this reveals
that standard evaluation and decoding schemes may significantly underestimate
the knowledge encapsulated in LMs.
- Abstract(参考訳): 現実的な質問は通常、異なるレベルの粒度で正しく答えられる。
例えば、『1961年8月4日』と『1961年』は、『バラク・オバマはいつ生まれたのか』という問いに対する正しい答えである。
しかし、標準質問応答 (QA) 評価プロトコルは、これを明示的に考慮せず、予測された回答を単一の粒度レベルの回答と比較する。
本稿では,複数の粒度回答に対して,予測された回答を精度と情報性の観点から評価する新しい評価手法であるGRANOLA QAを提案する。
本稿では,既存データセットを多粒度回答で拡張するための簡単な方法論を提案し,EntityQuestionsデータセットの多粒度バージョンであるGRANOLA-EQを作成する。
我々は,GRANOLA-EQ 上でのデコード手法について,応答粒度とモデルの不確実性との整合性を考慮した新しいアルゴリズムである Decoding with Response Aggregation (DRAG) について検討した。
実験の結果, 標準復号化を伴う大規模言語モデルでは, しばしば誤りとなる特定の解を生成する傾向が示された。
対照的に、多粒度回答で評価すると、DRAGは平均で20ポイント近く精度が上昇し、希少物質がさらに増加する。
全体として、標準評価と復号化スキームは、LMにカプセル化された知識を著しく過小評価する可能性がある。
関連論文リスト
- SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Mastering the ABCDs of Complex Questions: Answer-Based Claim
Decomposition for Fine-grained Self-Evaluation [9.776667356119352]
本稿では,質問を真偽のクレームに分解する手法であるABCDを提案する。
ABCDクレームを分解し, きめ細かい自己評価を行う。
GPT-3.5は、その答えがどの程度入力された質問の基準を満たすかを決定する能力を持っていることがわかった。
論文 参考訳(メタデータ) (2023-05-24T05:53:11Z) - Model Analysis & Evaluation for Ambiguous Question Answering [0.0]
質問回答モデルは、しばしば矛盾する情報の断片を組み合わせた長文の回答を生成するために必要である。
この分野の最近の進歩は、流動的な応答を発生させる強力な能力を示しているが、いくつかの研究課題は未解決のままである。
これらの側面を徹底的に調査し、現在のアプローチの限界について貴重な洞察を提供することを目指しています。
論文 参考訳(メタデータ) (2023-05-21T15:20:20Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - Answering Ambiguous Questions through Generative Evidence Fusion and
Round-Trip Prediction [46.38201136570501]
本稿では,複数の通路からの証拠を集約し,一つの回答や質問対の集合を適応的に予測するモデルを提案する。
我々のモデルはRefuelと呼ばれ、AmbigQAデータセット上で新しい最先端のパフォーマンスを実現し、NQ-OpenおよびTriviaQA上での競合性能を示す。
論文 参考訳(メタデータ) (2020-11-26T05:48:55Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。