論文の概要: Measuring the `I don't know' Problem through the Lens of Gricean
Quantity
- arxiv url: http://arxiv.org/abs/2010.12786v2
- Date: Wed, 21 Apr 2021 18:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:52:49.804687
- Title: Measuring the `I don't know' Problem through the Lens of Gricean
Quantity
- Title(参考訳): グリサン量レンズによる'I don't know'問題の測定
- Authors: Huda Khayrallah, Jo\~ao Sedoc
- Abstract要約: 本稿では,Grice's Maxims of Conversationのレンズを用いたニューラル生成ダイアログモデルの本質的な評価について考察する。
本稿では,汎用応答を生成する対話システムにおいて,「知らない」問題を診断するための相対的発話量(RUQ)を提案する。
- 参考スコア(独自算出の注目度): 4.862484260682186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the intrinsic evaluation of neural generative dialog models
through the lens of Grice's Maxims of Conversation (1975). Based on the maxim
of Quantity (be informative), we propose Relative Utterance Quantity (RUQ) to
diagnose the `I don't know' problem, in which a dialog system produces generic
responses. The linguistically motivated RUQ diagnostic compares the model score
of a generic response to that of the reference response. We find that for
reasonable baseline models, `I don't know' is preferred over the reference the
majority of the time, but this can be reduced to less than 5% with
hyperparameter tuning. RUQ allows for the direct analysis of the `I don't know'
problem, which has been addressed but not analyzed by prior work.
- Abstract(参考訳): 本稿ではGrice's Maxims of Conversation (1975) のレンズによる神経生成ダイアログモデルの本質的な評価について考察する。
情報量(情報量)の最大値に基づいて,対話システムが一般的な応答を生成する「知らない」問題を診断するための相対発話量(ruq)を提案する。
言語的に動機づけられたruq診断は、一般的な応答のモデルスコアと基準応答のモデルスコアを比較します。
妥当なベースラインモデルの場合、'I don't know' は参照よりもほとんどの時間より好まれるが、ハイパーパラメータチューニングでは5%未満に削減できる。
RUQは'I don't know'問題の直接解析を可能にします。
関連論文リスト
- Towards frugal unsupervised detection of subtle abnormalities in medical
imaging [0.0]
医用画像における異常検出は、異常が注釈付けされていない状況では難しい課題である。
汎用性が広く認識されている確率分布の混合について検討する。
このオンラインアプローチは、新たに診断されたパーキンソン病患者の追跡において、MR脳スキャンの微妙な異常の検出が困難であることを示すものである。
論文 参考訳(メタデータ) (2023-09-04T07:44:54Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - On the Calibration and Uncertainty with P\'{o}lya-Gamma Augmentation for
Dialog Retrieval Models [30.519215651368683]
ダイアログ応答検索モデルは、ある質問にどの程度関連があるかという応答に対して単一のスコアを出力します。
ディープニューラルネットワークのキャリブレーションの悪さは、信頼性の低い予測が常にユーザの判断を誤ったように、シングルスコアに対してさまざまな不確実性をもたらす。
対話応答検索モデルのための効率的な校正・不確実性推定フレームワークPG-DRRを提案する。
論文 参考訳(メタデータ) (2023-03-15T13:26:25Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文 参考訳(メタデータ) (2022-11-02T21:10:09Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Can Question Generation Debias Question Answering Models? A Case Study
on Question-Context Lexical Overlap [25.80004272277982]
最近のニューラルQGモデルは、高い語彙重なり合う質問を生成することに偏っている。
語彙重なりが低い質問を補足する同義語に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T09:53:54Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。