論文の概要: ExpertQA: Expert-Curated Questions and Attributed Answers
- arxiv url: http://arxiv.org/abs/2309.07852v1
- Date: Thu, 14 Sep 2023 16:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:15:35.456601
- Title: ExpertQA: Expert-Curated Questions and Attributed Answers
- Title(参考訳): ExpertQA: 専門家による質問と回答
- Authors: Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark
Yatskar, Dan Roth
- Abstract要約: 本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。
まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。
また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
- 参考スコア(独自算出の注目度): 54.764273324907684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models are adapted by a more sophisticated and diverse set of
users, the importance of guaranteeing that they provide factually correct
information supported by verifiable sources is critical across fields of study
& professions. This is especially the case for high-stakes fields, such as
medicine and law, where the risk of propagating false information is high and
can lead to undesirable societal consequences. Previous work studying
factuality and attribution has not focused on analyzing these characteristics
of language model outputs in domain-specific scenarios. In this work, we
present an evaluation study analyzing various axes of factuality and
attribution provided in responses from a few systems, by bringing domain
experts in the loop. Specifically, we first collect expert-curated questions
from 484 participants across 32 fields of study, and then ask the same experts
to evaluate generated responses to their own questions. We also ask experts to
revise answers produced by language models, which leads to ExpertQA, a
high-quality long-form QA dataset with 2177 questions spanning 32 fields, along
with verified answers and attributions for claims in the answers.
- Abstract(参考訳): 言語モデルはより洗練され多様なユーザによって適応されるため、検証可能な情報源が支持する事実に正しい情報を提供することを保証することの重要性は、研究や職業の分野にまたがって重要である。
これは特に、医療や法律のような、誤った情報を広めるリスクが高く、好ましくない社会的な結果をもたらすような、高リスクの分野の場合である。
事実性や帰属性を研究するこれまでの研究は、ドメイン固有のシナリオにおける言語モデル出力の特性の分析に重点を置いていない。
本稿では,いくつかのシステムから提供された事実と帰属に関する様々な軸を,そのループにドメインの専門家を招いて分析する。
具体的には、まず32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。
また、専門家に言語モデルによる回答の修正を依頼し、32の分野にまたがる2177の質問を含む高品質の長文QAデータセットであるExpertQAと、回答におけるクレームの属性を検証した。
関連論文リスト
- Mixture of Prompt Experts for Generalizable and Interpretable Question
Answering [61.63786831192267]
我々は,複数の特殊なLLMをアンサンブルするMOPEシステムを提案する。
各質問に対して最適な特化モデルを戦略的に選択することにより、MOPEシステムは、12のQAデータセットのコレクション上で、どの特化モデルよりも大幅に優れています。
我々の人間による研究は、専門家による予測と回答の選択プロセスの提示が、アノテータがシステムの出力をいつ信頼するかをより正確に決定するのに役立つことを確認している。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Exploring the State of the Art in Legal QA Systems [17.86982634320404]
質問応答システム(QA)は、人間の言語で質問された質問に対する回答を生成するように設計されている。
QAには、カスタマーサービス、教育、研究、言語間コミュニケーションなど、さまざまな実践的応用がある。
法分野における質問応答のための14のベンチマークデータセットをレビューする包括的調査を提供する。
論文 参考訳(メタデータ) (2023-04-13T15:48:01Z) - Prompting Large Language Models with Answer Heuristics for
Knowledge-based Visual Question Answering [69.9079798772258]
Prophet は GPT-3 に知識ベースの VQA に対する回答を提供するためのフレームワークである。
まず、外部知識を使わずに、知識に基づくVQAデータセット上でバニラVQAモデルをトレーニングする。
その後,2種類の解答候補と解答候補を抽出する。
2種類の答えがプロンプトにエンコードされ、GPT-3がタスクをよりよく理解できるようにする。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - Connecting Humanities and Social Sciences: Applying Language and Speech
Technology to Online Panel Surveys [2.0646127669654835]
オランダのパネル調査において,言語と音声技術のオープンエンド質問への適用について検討した。
実験波では、回答者は音声やキーボードを使ってオープンな質問に答えることができた。
本稿では,ASRシステムが生成した誤りを報告し,これらの誤りが下流解析に与える影響について検討する。
論文 参考訳(メタデータ) (2023-02-21T10:52:15Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [60.831374779191044]
会話型調査のよいフォローアップ質問は、高品質な情報を促し、魅力的な体験を提供する。
本研究では,知識駆動型フォローアップ質問生成フレームワークを提案する。
実験により,本フレームワークは客観的評価と人間-専門家評価の両方において,GPTベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。