論文の概要: Measuring the `I don't know' Problem through the Lens of Gricean
Quantity
- arxiv url: http://arxiv.org/abs/2010.12786v2
- Date: Wed, 21 Apr 2021 18:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:52:49.804687
- Title: Measuring the `I don't know' Problem through the Lens of Gricean
Quantity
- Title(参考訳): グリサン量レンズによる'I don't know'問題の測定
- Authors: Huda Khayrallah, Jo\~ao Sedoc
- Abstract要約: 本稿では,Grice's Maxims of Conversationのレンズを用いたニューラル生成ダイアログモデルの本質的な評価について考察する。
本稿では,汎用応答を生成する対話システムにおいて,「知らない」問題を診断するための相対的発話量(RUQ)を提案する。
- 参考スコア(独自算出の注目度): 4.862484260682186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the intrinsic evaluation of neural generative dialog models
through the lens of Grice's Maxims of Conversation (1975). Based on the maxim
of Quantity (be informative), we propose Relative Utterance Quantity (RUQ) to
diagnose the `I don't know' problem, in which a dialog system produces generic
responses. The linguistically motivated RUQ diagnostic compares the model score
of a generic response to that of the reference response. We find that for
reasonable baseline models, `I don't know' is preferred over the reference the
majority of the time, but this can be reduced to less than 5% with
hyperparameter tuning. RUQ allows for the direct analysis of the `I don't know'
problem, which has been addressed but not analyzed by prior work.
- Abstract(参考訳): 本稿ではGrice's Maxims of Conversation (1975) のレンズによる神経生成ダイアログモデルの本質的な評価について考察する。
情報量(情報量)の最大値に基づいて,対話システムが一般的な応答を生成する「知らない」問題を診断するための相対発話量(ruq)を提案する。
言語的に動機づけられたruq診断は、一般的な応答のモデルスコアと基準応答のモデルスコアを比較します。
妥当なベースラインモデルの場合、'I don't know' は参照よりもほとんどの時間より好まれるが、ハイパーパラメータチューニングでは5%未満に削減できる。
RUQは'I don't know'問題の直接解析を可能にします。
関連論文リスト
- ScopeQA: A Framework for Generating Out-of-Scope Questions for RAG [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,多様な境界線外質問を効率よく生成する,ガイド付き幻覚に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Towards frugal unsupervised detection of subtle abnormalities in medical
imaging [0.0]
医用画像における異常検出は、異常が注釈付けされていない状況では難しい課題である。
汎用性が広く認識されている確率分布の混合について検討する。
このオンラインアプローチは、新たに診断されたパーキンソン病患者の追跡において、MR脳スキャンの微妙な異常の検出が困難であることを示すものである。
論文 参考訳(メタデータ) (2023-09-04T07:44:54Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - On the Calibration and Uncertainty with P\'{o}lya-Gamma Augmentation for
Dialog Retrieval Models [30.519215651368683]
ダイアログ応答検索モデルは、ある質問にどの程度関連があるかという応答に対して単一のスコアを出力します。
ディープニューラルネットワークのキャリブレーションの悪さは、信頼性の低い予測が常にユーザの判断を誤ったように、シングルスコアに対してさまざまな不確実性をもたらす。
対話応答検索モデルのための効率的な校正・不確実性推定フレームワークPG-DRRを提案する。
論文 参考訳(メタデータ) (2023-03-15T13:26:25Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文 参考訳(メタデータ) (2022-11-02T21:10:09Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Can Question Generation Debias Question Answering Models? A Case Study
on Question-Context Lexical Overlap [25.80004272277982]
最近のニューラルQGモデルは、高い語彙重なり合う質問を生成することに偏っている。
語彙重なりが低い質問を補足する同義語に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T09:53:54Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。