Fugu-MT 論文翻訳(概要): Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

論文の概要: Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

arxiv url: http://arxiv.org/abs/2401.04695v1
Date: Tue, 9 Jan 2024 17:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 15:15:41.656282
Title: Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
Title（参考訳）: 知識評価のギャップを狭める:多粒度回答を用いたオープンドメイン質問応答
Authors: Gal Yona, Roee Aharoni, Mor Geva
Abstract要約: 本稿では,複数粒度回答の集合に対する精度と情報性の観点から,予測された回答を評価できる新しい評価手法を提案する。実験の結果, 標準復号化を伴う大規模言語モデルでは, しばしば誤解となるような特定の解を生成する傾向が示された。多粒度回答で評価すると、DRAGは平均で20ポイント近く精度が上昇し、希少物質はさらに増加する。
参考スコア（独自算出の注目度）: 24.516758290933545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model's uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.
Abstract（参考訳）: 現実的な質問は通常、異なるレベルの粒度で正しく答えられる。例えば、『1961年8月4日』と『1961年』は、『バラク・オバマはいつ生まれたのか』という問いに対する正しい答えである。しかし、標準質問応答 (QA) 評価プロトコルは、これを明示的に考慮せず、予測された回答を単一の粒度レベルの回答と比較する。本稿では,複数の粒度回答に対して,予測された回答を精度と情報性の観点から評価する新しい評価手法であるGRANOLA QAを提案する。本稿では,既存データセットを多粒度回答で拡張するための簡単な方法論を提案し,EntityQuestionsデータセットの多粒度バージョンであるGRANOLA-EQを作成する。我々は,GRANOLA-EQ 上でのデコード手法について,応答粒度とモデルの不確実性との整合性を考慮した新しいアルゴリズムである Decoding with Response Aggregation (DRAG) について検討した。実験の結果, 標準復号化を伴う大規模言語モデルでは, しばしば誤りとなる特定の解を生成する傾向が示された。対照的に、多粒度回答で評価すると、DRAGは平均で20ポイント近く精度が上昇し、希少物質がさらに増加する。全体として、標準評価と復号化スキームは、LMにカプセル化された知識を著しく過小評価する可能性がある。

関連論文リスト

MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文参考訳（メタデータ） (2025-06-18T07:49:13Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文参考訳（メタデータ） (2024-05-26T21:33:27Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文参考訳（メタデータ） (2023-07-08T04:32:17Z)
Mastering the ABCDs of Complex Questions: Answer-Based Claim Decomposition for Fine-grained Self-Evaluation [9.776667356119352]
本稿では,質問を真偽のクレームに分解する手法であるABCDを提案する。 ABCDクレームを分解し, きめ細かい自己評価を行う。 GPT-3.5は、その答えがどの程度入力された質問の基準を満たすかを決定する能力を持っていることがわかった。
論文参考訳（メタデータ） (2023-05-24T05:53:11Z)
Answering Ambiguous Questions through Generative Evidence Fusion and Round-Trip Prediction [46.38201136570501]
本稿では,複数の通路からの証拠を集約し,一つの回答や質問対の集合を適応的に予測するモデルを提案する。我々のモデルはRefuelと呼ばれ、AmbigQAデータセット上で新しい最先端のパフォーマンスを実現し、NQ-OpenおよびTriviaQA上での競合性能を示す。
論文参考訳（メタデータ） (2020-11-26T05:48:55Z)
ClarQ: A large-scale and diverse dataset for Clarification Question Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文参考訳（メタデータ） (2020-06-10T17:56:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。