論文の概要: QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing
- arxiv url: http://arxiv.org/abs/2310.14520v2
- Date: Wed, 1 Nov 2023 20:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:35:02.725722
- Title: QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing
- Title(参考訳): qudeval: 議論談話解析における質問の評価
- Authors: Yating Wu, Ritika Mangla, Greg Durrett, Junyi Jessy Li
- Abstract要約: Questions Under discussions (QUD) は、言論を継続的に質問し、答えるように進行する多目的言語フレームワークである。
本研究はQUD解析の自動評価のための最初のフレームワークを紹介する。
細調整されたシステムとLLMの両方から生成された2,190のQUD質問のきめ細かい評価データセットであるQUDevalを提案する。
- 参考スコア(独自算出の注目度): 87.20804165014387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Questions Under Discussion (QUD) is a versatile linguistic framework in which
discourse progresses as continuously asking questions and answering them.
Automatic parsing of a discourse to produce a QUD structure thus entails a
complex question generation task: given a document and an answer sentence,
generate a question that satisfies linguistic constraints of QUD and can be
grounded in an anchor sentence in prior context. These questions are known to
be curiosity-driven and open-ended. This work introduces the first framework
for the automatic evaluation of QUD parsing, instantiating the theoretical
constraints of QUD in a concrete protocol. We present QUDeval, a dataset of
fine-grained evaluation of 2,190 QUD questions generated from both fine-tuned
systems and LLMs. Using QUDeval, we show that satisfying all constraints of QUD
is still challenging for modern LLMs, and that existing evaluation metrics
poorly approximate parser quality. Encouragingly, human-authored QUDs are
scored highly by our human evaluators, suggesting that there is headroom for
further progress on language modeling to improve both QUD parsing and QUD
evaluation.
- Abstract(参考訳): Questions Under Discussion (QUD) は、言論を継続的に質問し、回答する多目的言語フレームワークである。
文書と回答文が与えられた場合、QUDの言語的制約を満たす質問を生成し、事前の文脈でアンカー文でグラウンド化することができる。
これらの質問は好奇心を駆り立て、オープンエンドであることが知られている。
本研究はQUD解析の自動評価のための最初のフレームワークを導入し、具体的なプロトコルにおけるQUDの理論的制約をインスタンス化する。
細調整されたシステムとLLMの両方から生成された2,190のQUD質問のきめ細かい評価データセットであるQUDevalを提案する。
QUDevalを用いて、現代のLLMではQUDの制約をすべて満たすことは依然として困難であり、既存の評価基準はパーサの品質を十分に近似していないことを示す。
人為的なQUDは、人間の評価者によって高く評価され、QUD解析とQUD評価の両方を改善するために、言語モデリングのさらなる進歩のためのハードルがあることが示唆されている。
関連論文リスト
- QUDSELECT: Selective Decoding for Questions Under Discussion Parsing [90.92351108691014]
Question Under Examination (QUD) は、暗黙の質問を用いて文間の会話関係を明らかにするための談話フレームワークである。
本稿では,QUD基準を考慮したQUD依存構造を選択的に復号する共同学習フレームワークであるQUDSELECTを紹介する。
提案手法は,人的評価において9%,自動評価において4%,最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-02T06:46:08Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - Learn to Resolve Conversational Dependency: A Consistency Training
Framework for Conversational Question Answering [14.382513103948897]
本稿では,会話の文脈を理解する上で,QAモデルの能力を高めるためにExCorD(会話依存の解決方法の明示的ガイダンス)を提案する。
実験では,QuACでは1.2F1,CANARDでは5.2F1,QAモデルでは1.2F1に改善した。
論文 参考訳(メタデータ) (2021-06-22T07:16:45Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Question Rewriting for Conversational Question Answering [15.355557454305776]
本稿では,TREC CAsT 2019パス検索データセット上で,新たな技術状況を設定する対話型QAアーキテクチャを提案する。
また,同じQRモデルにより,QACデータセットのQA性能が向上することを示す。
評価の結果,QRモデルは両データセットにおいてほぼ人間レベルの性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-04-30T09:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。