論文の概要: Evaluating the Quality of Answers in Political Q&A Sessions with Large Language Models
- arxiv url: http://arxiv.org/abs/2404.08816v1
- Date: Fri, 12 Apr 2024 21:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:32:47.995066
- Title: Evaluating the Quality of Answers in Political Q&A Sessions with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた政治Q&Aセッションにおける回答の品質評価
- Authors: R. Michael Alvarez, Jacob Morrier,
- Abstract要約: 本稿では,政治質問・回答セッションにおける回答の質を評価するための新しいアプローチを提案する。
そこで本研究では,最初の質問を正確に推測できる度合いに基づいて,回答の品質を測定することを提案する。
回答の質は、質問する議員の党員会派によって大きく異なることが分かっています。
- 参考スコア(独自算出の注目度): 0.5261718469769449
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a new approach to evaluating the quality of answers in political question-and-answer sessions. We propose to measure an answer's quality based on the degree to which it allows us to infer the initial question accurately. This conception of answer quality inherently reflects their relevance to initial questions. Drawing parallels with semantic search, we argue that this measurement approach can be operationalized by fine-tuning a large language model on the observed corpus of questions and answers without additional labeled data. We showcase our measurement approach within the context of the Question Period in the Canadian House of Commons. Our approach yields valuable insights into the correlates of the quality of answers in the Question Period. We find that answer quality varies significantly based on the party affiliation of the members of Parliament asking the questions and uncover a meaningful correlation between answer quality and the topics of the questions.
- Abstract(参考訳): 本稿では,政治質問・回答セッションにおける回答の質を評価するための新しいアプローチを提案する。
そこで本研究では,最初の質問を正確に推測できる度合いに基づいて,回答の品質を測定することを提案する。
この回答の質の概念は、その最初の質問に対する関係性を本質的に反映している。
セマンティックサーチと平行に描画することで、この測定手法は、ラベル付きデータを追加せずに、観察された質問や回答のコーパス上で、大きな言語モデルを微調整することで実現できると論じる。
本稿では,カナダ庶民院における質問期間の文脈における計測手法について紹介する。
提案手法は,質問期間における回答の質の相関に関する貴重な洞察を与える。
回答の質は、質問する議員の党員関係に基づいて大きく変化し、回答の質と質問の話題との間に有意義な相関関係を明らかにする。
関連論文リスト
- QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing [87.20804165014387]
Questions Under discussions (QUD) は、言論を継続的に質問し、答えるように進行する多目的言語フレームワークである。
本研究はQUD解析の自動評価のための最初のフレームワークを紹介する。
細調整されたシステムとLLMの両方から生成された2,190のQUD質問のきめ細かい評価データセットであるQUDevalを提案する。
論文 参考訳(メタデータ) (2023-10-23T03:03:58Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z) - Conversational QA Dataset Generation with Answer Revision [2.5838973036257458]
本稿では,一節から質問に値するフレーズを抽出し,過去の会話を考慮し,それに対応する質問を生成する新しい枠組みを提案する。
本フレームワークでは,抽出した回答を質問生成後に修正し,その回答が一致した質問に正確に一致するようにした。
論文 参考訳(メタデータ) (2022-09-23T04:05:38Z) - Improving the Question Answering Quality using Answer Candidate
Filtering based on Natural-Language Features [117.44028458220427]
本稿では,質問応答(QA)の品質をいかに改善できるかという課題に対処する。
私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。
特に,提案手法は誤答の大部分を除去しつつ,その可能性を示した。
論文 参考訳(メタデータ) (2021-12-10T11:09:44Z) - Building and Evaluating Open-Domain Dialogue Corpora with Clarifying
Questions [65.60888490988236]
オープンドメインのシングルターンとマルチターンの会話に焦点を当てたデータセットをリリースする。
我々は最先端のニューラルベースラインをいくつかベンチマークする。
様々な対話における質問の明確化の質を評価するための,オフラインおよびオンラインのステップからなるパイプラインを提案する。
論文 参考訳(メタデータ) (2021-09-13T09:16:14Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Analysing the Effect of Clarifying Questions on Document Ranking in
Conversational Search [10.335808358080289]
質問の明確化とユーザの回答の相違がランキングの質に与える影響について検討する。
単純な語彙ベースラインを導入し、既存のナイーブベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2020-08-09T12:55:16Z) - Stay Hungry, Stay Focused: Generating Informative and Specific Questions
in Information-Seeking Conversations [41.74162467619795]
情報非対称な会話における情報的質問生成の問題について検討する。
実践的な質問を生成するために,情報量測定を最適化するために強化学習を用いる。
そこで本研究では,提案した実用的質問は,ベースラインモデル上で生成した質問の有意性と特異性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-04-30T00:49:14Z) - SubjQA: A Dataset for Subjectivity and Review Comprehension [52.13338191442912]
主観性と質問応答(QA)の関係について検討する。
主観性は、主観性とQAパフォーマンスのより複雑な相互作用があるにもかかわらず、QAの場合においても重要な特徴であることがわかった。
顧客レビューに基づいた英語のQAデータセット(SubjQA)をリリースし、6つの異なるドメインにまたがる質問や回答に対する主観的アノテーションを含む。
論文 参考訳(メタデータ) (2020-04-29T15:59:30Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。