論文の概要: ExpertQA: Expert-Curated Questions and Attributed Answers
- arxiv url: http://arxiv.org/abs/2309.07852v1
- Date: Thu, 14 Sep 2023 16:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:15:35.456601
- Title: ExpertQA: Expert-Curated Questions and Attributed Answers
- Title(参考訳): ExpertQA: 専門家による質問と回答
- Authors: Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark
Yatskar, Dan Roth
- Abstract要約: 本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。
まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。
また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
- 参考スコア(独自算出の注目度): 54.764273324907684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models are adapted by a more sophisticated and diverse set of
users, the importance of guaranteeing that they provide factually correct
information supported by verifiable sources is critical across fields of study
& professions. This is especially the case for high-stakes fields, such as
medicine and law, where the risk of propagating false information is high and
can lead to undesirable societal consequences. Previous work studying
factuality and attribution has not focused on analyzing these characteristics
of language model outputs in domain-specific scenarios. In this work, we
present an evaluation study analyzing various axes of factuality and
attribution provided in responses from a few systems, by bringing domain
experts in the loop. Specifically, we first collect expert-curated questions
from 484 participants across 32 fields of study, and then ask the same experts
to evaluate generated responses to their own questions. We also ask experts to
revise answers produced by language models, which leads to ExpertQA, a
high-quality long-form QA dataset with 2177 questions spanning 32 fields, along
with verified answers and attributions for claims in the answers.
- Abstract(参考訳): 言語モデルはより洗練され多様なユーザによって適応されるため、検証可能な情報源が支持する事実に正しい情報を提供することを保証することの重要性は、研究や職業の分野にまたがって重要である。
これは特に、医療や法律のような、誤った情報を広めるリスクが高く、好ましくない社会的な結果をもたらすような、高リスクの分野の場合である。
事実性や帰属性を研究するこれまでの研究は、ドメイン固有のシナリオにおける言語モデル出力の特性の分析に重点を置いていない。
本稿では,いくつかのシステムから提供された事実と帰属に関する様々な軸を,そのループにドメインの専門家を招いて分析する。
具体的には、まず32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。
また、専門家に言語モデルによる回答の修正を依頼し、32の分野にまたがる2177の質問を含む高品質の長文QAデータセットであるExpertQAと、回答におけるクレームの属性を検証した。
関連論文リスト
- Aspect-oriented Consumer Health Answer Summarization [2.298110639419913]
コミュニティ質問回答(Community Question-Answering、CQA)フォーラムは、人々が情報を求める方法、特に医療ニーズに関連するものに革命をもたらした。
単一のクエリに対する応答にはいくつかの回答があるため、特定の健康上の懸念に関連する重要な情報を把握することが難しくなる。
本研究は、この制限に対処するために、側面に基づく健康回答の要約に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-10T07:52:43Z) - Gotcha! Don't trick me with unanswerable questions! Self-aligning Large
Language Models for Responding to Unknown Questions [75.78536317322616]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Connecting Humanities and Social Sciences: Applying Language and Speech
Technology to Online Panel Surveys [2.0646127669654835]
オランダのパネル調査において,言語と音声技術のオープンエンド質問への適用について検討した。
実験波では、回答者は音声やキーボードを使ってオープンな質問に答えることができた。
本稿では,ASRシステムが生成した誤りを報告し,これらの誤りが下流解析に与える影響について検討する。
論文 参考訳(メタデータ) (2023-02-21T10:52:15Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。