Fugu-MT 論文翻訳(概要): ExpertQA: Expert-Curated Questions and Attributed Answers

論文の概要: ExpertQA: Expert-Curated Questions and Attributed Answers

arxiv url: http://arxiv.org/abs/2309.07852v1
Date: Thu, 14 Sep 2023 16:54:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 12:15:35.456601
Title: ExpertQA: Expert-Curated Questions and Attributed Answers
Title（参考訳）: ExpertQA: 専門家による質問と回答
Authors: Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark Yatskar, Dan Roth
Abstract要約: 本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
参考スコア（独自算出の注目度）: 54.764273324907684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language models are adapted by a more sophisticated and diverse set of users, the importance of guaranteeing that they provide factually correct information supported by verifiable sources is critical across fields of study & professions. This is especially the case for high-stakes fields, such as medicine and law, where the risk of propagating false information is high and can lead to undesirable societal consequences. Previous work studying factuality and attribution has not focused on analyzing these characteristics of language model outputs in domain-specific scenarios. In this work, we present an evaluation study analyzing various axes of factuality and attribution provided in responses from a few systems, by bringing domain experts in the loop. Specifically, we first collect expert-curated questions from 484 participants across 32 fields of study, and then ask the same experts to evaluate generated responses to their own questions. We also ask experts to revise answers produced by language models, which leads to ExpertQA, a high-quality long-form QA dataset with 2177 questions spanning 32 fields, along with verified answers and attributions for claims in the answers.
Abstract（参考訳）: 言語モデルはより洗練され多様なユーザによって適応されるため、検証可能な情報源が支持する事実に正しい情報を提供することを保証することの重要性は、研究や職業の分野にまたがって重要である。これは特に、医療や法律のような、誤った情報を広めるリスクが高く、好ましくない社会的な結果をもたらすような、高リスクの分野の場合である。事実性や帰属性を研究するこれまでの研究は、ドメイン固有のシナリオにおける言語モデル出力の特性の分析に重点を置いていない。本稿では,いくつかのシステムから提供された事実と帰属に関する様々な軸を,そのループにドメインの専門家を招いて分析する。具体的には、まず32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。また、専門家に言語モデルによる回答の修正を依頼し、32の分野にまたがる2177の質問を含む高品質の長文QAデータセットであるExpertQAと、回答におけるクレームの属性を検証した。

関連論文リスト

Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文参考訳（メタデータ） (2024-08-19T09:27:45Z)
Analyzing Human Questioning Behavior and Causal Curiosity through Natural Queries [91.70689724416698]
NatQuest(ナットクエスト)は、3つの異なるソースから自然発生の質問13,500件のコレクションである。分析の結果,データセット内には因果的疑問(最大42%)が有意な存在であることが判明した。
論文参考訳（メタデータ） (2024-05-30T17:55:28Z)
Aspect-oriented Consumer Health Answer Summarization [2.298110639419913]
コミュニティ質問回答(Community Question-Answering、CQA)フォーラムは、人々が情報を求める方法、特に医療ニーズに関連するものに革命をもたらした。単一のクエリに対する応答にはいくつかの回答があるため、特定の健康上の懸念に関連する重要な情報を把握することが難しくなる。本研究は、この制限に対処するために、側面に基づく健康回答の要約に焦点を当てている。
論文参考訳（メタデータ） (2024-05-10T07:52:43Z)
Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文参考訳（メタデータ） (2024-02-23T02:24:36Z)
Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文参考訳（メタデータ） (2024-02-22T04:14:10Z)
Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文参考訳（メタデータ） (2023-05-24T02:00:51Z)
Connecting Humanities and Social Sciences: Applying Language and Speech Technology to Online Panel Surveys [2.0646127669654835]
オランダのパネル調査において,言語と音声技術のオープンエンド質問への適用について検討した。実験波では、回答者は音声やキーボードを使ってオープンな質問に答えることができた。本稿では,ASRシステムが生成した誤りを報告し,これらの誤りが下流解析に与える影響について検討する。
論文参考訳（メタデータ） (2023-02-21T10:52:15Z)
CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文参考訳（メタデータ） (2022-11-30T18:54:49Z)
Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文参考訳（メタデータ） (2021-12-07T08:53:40Z)
A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文参考訳（メタデータ） (2021-05-07T00:12:34Z)
Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文参考訳（メタデータ） (2020-03-13T11:34:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。