論文の概要: Ditch the Gold Standard: Re-evaluating Conversational Question Answering
- arxiv url: http://arxiv.org/abs/2112.08812v1
- Date: Thu, 16 Dec 2021 11:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:24:37.922974
- Title: Ditch the Gold Standard: Re-evaluating Conversational Question Answering
- Title(参考訳): 金本位制廃止:会話型質問応答の再評価
- Authors: Huihan Li, Tianyu Gao, Manan Goenka, Danqi Chen
- Abstract要約: 我々は,最先端CQAシステムの大規模評価を行う。
その結果,人間と機械の会話の分布は人間と機械の会話とは大きく異なることがわかった。
本研究では,予測履歴に基づく質問書き直し機構を提案する。
- 参考スコア(独自算出の注目度): 9.194536300785481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational question answering (CQA) systems aim to provide
natural-language answers to users in information-seeking conversations.
Existing CQA benchmarks compare models with pre-collected human-human
conversations, using ground-truth answers provided in conversational history.
It remains unclear whether we can rely on this static evaluation for model
development and whether current systems can well generalize to real-world
human-machine conversations. In this work, we conduct the first large-scale
human evaluation of state-of-the-art CQA systems, where human evaluators
converse with models and judge the correctness of their answers. We find that
the distribution of human-machine conversations differs drastically from that
of human-human conversations, and there is a disagreement between human and
gold-history evaluation in terms of model ranking. We further investigate how
to improve automatic evaluations, and propose a question rewriting mechanism
based on predicted history, which better correlates with human judgments.
Finally, we discuss the impact of various modeling strategies and future
directions towards better conversational question answering systems.
- Abstract(参考訳): 会話型質問応答システム(CQA)は、情報検索会話において、ユーザに自然言語による回答を提供することを目的としている。
既存のCQAベンチマークは、会話の歴史で提供される地味な答えを用いて、事前コンパイルされた人間と人間の会話と比較する。
モデル開発にこの静的評価を頼りにできるのか、現在のシステムが現実世界の人間と機械の会話をうまく一般化できるのかは不明だ。
本研究では,人間の評価者がモデルと対話し,回答の正しさを判断する,最先端CQAシステムの大規模評価を行う。
ヒトと機械の会話の分布は人間と人間の会話とは大きく異なり、モデルランキングでは人間と金の歴史的評価に相違があることが判明した。
さらに,自動評価の改善方法について検討し,予測履歴に基づく質問書き直し機構を提案する。
最後に,対話型質問応答システムに対する様々なモデリング戦略と今後の方向性について論じる。
関連論文リスト
- IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。
また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。
本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文 参考訳(メタデータ) (2024-08-24T10:34:20Z) - Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain
Dialogue Systems [14.98159964397052]
我々は,自動応答評価器に必要とされる機能について,対話者の視点から分析・検討した。
Hazumiデータセットの最初の実験では、自動応答評価をインターロケータの判断と相関させる上で、インターロケータ認識が重要な役割を担っていることが明らかとなった。
X(元Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測が人間からのフィードバックなしにインターロケータ対応評価器を訓練できることが確認された。
論文 参考訳(メタデータ) (2024-01-04T13:15:41Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z) - BERT-CoQAC: BERT-based Conversational Question Answering in Context [10.811729691130349]
履歴変換をシステム内に組み込むためのBERTという,パブリックに利用可能なプリトレーニング言語モデルに基づくフレームワークを紹介する。
実験の結果,我々のフレームワークはQuACリーダボードの最先端モデルと同等の性能を示した。
論文 参考訳(メタデータ) (2021-04-23T03:05:17Z) - Human-like informative conversations: Better acknowledgements using
conditional mutual information [0.0]
この研究は、人間と同じくらい自然に会話に新しい事実コンテンツを織り込むことができる対話エージェントを構築することを目指しています。
対話分析の言語的原則から洞察を得て,switchboard dialog actコーパスから人間と人間の会話を注釈づけする。
論文 参考訳(メタデータ) (2021-04-16T00:13:57Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。