論文の概要: Measuring the Quality of Answers in Political Q&As with Large Language Models
- arxiv url: http://arxiv.org/abs/2404.08816v2
- Date: Tue, 27 Aug 2024 22:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 20:49:20.279224
- Title: Measuring the Quality of Answers in Political Q&As with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた政治Q&Aにおける回答の品質測定
- Authors: R. Michael Alvarez, Jacob Morrier,
- Abstract要約: 本稿では,政治質問・回答セッションにおける回答の質を評価するための新しいアプローチを提案する。
本稿では,初期質問を正確に推測できる度合いに基づいて,回答の品質を測定することを提案する。
- 参考スコア(独自算出の注目度): 0.5261718469769449
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces a new approach for measuring the quality of answers in political question-and-answer sessions. We propose to measure answer quality based on the degree to which it allows to infer the initial question accurately. This measure of answer quality reflects how well the answer engages with and addresses the initial question. Drawing an analogy with semantic search, we demonstrate that this measurement approach can be implemented by fine-tuning a large language model on the corpus of observed questions and answers without additional labeled data. We showcase our approach within the context of the Question Period in the Canadian House of Commons, providing valuable insights into the correlates of answer quality. Our findings reveal significant variations in answer quality based on the party affiliation of the members of Parliament asking the question. Additionally, we find a meaningful correlation between answer quality and the topic raised in the question.
- Abstract(参考訳): 本稿では,政治質問・回答セッションにおける回答の質を評価するための新しいアプローチを提案する。
本稿では,初期質問を正確に推測できる度合いに基づいて,回答の品質を測定することを提案する。
この回答の品質の尺度は、答えがいかにうまく関与し、最初の質問に対処するかを反映します。
セマンティックサーチと類似した図面を描き、この測定手法は、ラベル付きデータを追加せずに、観察された質問や回答のコーパス上で大きな言語モデルを微調整することで実現可能であることを実証する。
我々は,カナダ庶民院における質問期間の文脈内で,我々のアプローチを紹介し,回答品質の相関性に関する貴重な洞察を提供する。
本研究は, 議員の党員会派による質問に対する回答品質の有意な変動を明らかにした。
さらに,回答の品質と質問で提起された話題との間に有意な相関関係があることが判明した。
関連論文リスト
- "I Never Said That": A dataset, taxonomy and baselines on response clarity classification [4.16330182801919]
本稿では,応答の明瞭さを検出し分類するタスクを編み出した新しい分類法を提案する。
提案する2段階分類法は,質問に対する回答の明瞭度を,質問に対する情報提供の観点から明らかにする。
ChatGPTと人間のアノテーションを組み合わせて、政治インタビューから個別のQAペアを収集、検証、注釈付けします。
論文 参考訳(メタデータ) (2024-09-20T20:15:06Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Selectively Answering Ambiguous Questions [38.83930394700588]
我々は, サンプルモデル出力における繰り返しの定量化が, 退避時期を決定する最も信頼性の高い手法であることが判明した。
その結果,サンプリングに基づく信頼度スコアは,比較的あいまいな質問に対する回答のキャリブレーションに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T01:25:38Z) - Conversational QA Dataset Generation with Answer Revision [2.5838973036257458]
本稿では,一節から質問に値するフレーズを抽出し,過去の会話を考慮し,それに対応する質問を生成する新しい枠組みを提案する。
本フレームワークでは,抽出した回答を質問生成後に修正し,その回答が一致した質問に正確に一致するようにした。
論文 参考訳(メタデータ) (2022-09-23T04:05:38Z) - Double Retrieval and Ranking for Accurate Question Answering [120.69820139008138]
本研究では,トランスフォーマーを用いた解答選択モデルに導入された解答検証ステップが,問合せ解答における解答の精度を大幅に向上させることを示す。
AS2のためのよく知られた3つのデータセットの結果は、最先端の一貫性と大幅な改善を示している。
論文 参考訳(メタデータ) (2022-01-16T06:20:07Z) - Improving the Question Answering Quality using Answer Candidate
Filtering based on Natural-Language Features [117.44028458220427]
本稿では,質問応答(QA)の品質をいかに改善できるかという課題に対処する。
私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。
特に,提案手法は誤答の大部分を除去しつつ,その可能性を示した。
論文 参考訳(メタデータ) (2021-12-10T11:09:44Z) - Building and Evaluating Open-Domain Dialogue Corpora with Clarifying
Questions [65.60888490988236]
オープンドメインのシングルターンとマルチターンの会話に焦点を当てたデータセットをリリースする。
我々は最先端のニューラルベースラインをいくつかベンチマークする。
様々な対話における質問の明確化の質を評価するための,オフラインおよびオンラインのステップからなるパイプラインを提案する。
論文 参考訳(メタデータ) (2021-09-13T09:16:14Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - SubjQA: A Dataset for Subjectivity and Review Comprehension [52.13338191442912]
主観性と質問応答(QA)の関係について検討する。
主観性は、主観性とQAパフォーマンスのより複雑な相互作用があるにもかかわらず、QAの場合においても重要な特徴であることがわかった。
顧客レビューに基づいた英語のQAデータセット(SubjQA)をリリースし、6つの異なるドメインにまたがる質問や回答に対する主観的アノテーションを含む。
論文 参考訳(メタデータ) (2020-04-29T15:59:30Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。