Fugu-MT 論文翻訳(概要): Measuring the `I don't know' Problem through the Lens of Gricean Quantity

論文の概要: Measuring the `I don't know' Problem through the Lens of Gricean Quantity

arxiv url: http://arxiv.org/abs/2010.12786v2
Date: Wed, 21 Apr 2021 18:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 12:52:49.804687
Title: Measuring the `I don't know' Problem through the Lens of Gricean Quantity
Title（参考訳）: グリサン量レンズによる'I don't know'問題の測定
Authors: Huda Khayrallah, Jo\~ao Sedoc
Abstract要約: 本稿では,Grice's Maxims of Conversationのレンズを用いたニューラル生成ダイアログモデルの本質的な評価について考察する。本稿では,汎用応答を生成する対話システムにおいて,「知らない」問題を診断するための相対的発話量(RUQ)を提案する。
参考スコア（独自算出の注目度）: 4.862484260682186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the intrinsic evaluation of neural generative dialog models through the lens of Grice's Maxims of Conversation (1975). Based on the maxim of Quantity (be informative), we propose Relative Utterance Quantity (RUQ) to diagnose the `I don't know' problem, in which a dialog system produces generic responses. The linguistically motivated RUQ diagnostic compares the model score of a generic response to that of the reference response. We find that for reasonable baseline models, `I don't know' is preferred over the reference the majority of the time, but this can be reduced to less than 5% with hyperparameter tuning. RUQ allows for the direct analysis of the `I don't know' problem, which has been addressed but not analyzed by prior work.
Abstract（参考訳）: 本稿ではGrice's Maxims of Conversation (1975) のレンズによる神経生成ダイアログモデルの本質的な評価について考察する。情報量(情報量)の最大値に基づいて,対話システムが一般的な応答を生成する「知らない」問題を診断するための相対発話量(ruq)を提案する。言語的に動機づけられたruq診断は、一般的な応答のモデルスコアと基準応答のモデルスコアを比較します。妥当なベースラインモデルの場合、'I don't know' は参照よりもほとんどの時間より好まれるが、ハイパーパラメータチューニングでは5%未満に削減できる。 RUQは'I don't know'問題の直接解析を可能にします。

関連論文リスト

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文参考訳（メタデータ） (2024-07-16T17:23:16Z)
Towards frugal unsupervised detection of subtle abnormalities in medical imaging [0.0]
医用画像における異常検出は、異常が注釈付けされていない状況では難しい課題である。汎用性が広く認識されている確率分布の混合について検討する。このオンラインアプローチは、新たに診断されたパーキンソン病患者の追跡において、MR脳スキャンの微妙な異常の検出が困難であることを示すものである。
論文参考訳（メタデータ） (2023-09-04T07:44:54Z)
Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文参考訳（メタデータ） (2023-03-30T17:40:30Z)
On the Calibration and Uncertainty with P\'{o}lya-Gamma Augmentation for Dialog Retrieval Models [30.519215651368683]
ダイアログ応答検索モデルは、ある質問にどの程度関連があるかという応答に対して単一のスコアを出力します。ディープニューラルネットワークのキャリブレーションの悪さは、信頼性の低い予測が常にユーザの判断を誤ったように、シングルスコアに対してさまざまな不確実性をもたらす。対話応答検索モデルのための効率的な校正・不確実性推定フレームワークPG-DRRを提案する。
論文参考訳（メタデータ） (2023-03-15T13:26:25Z)
Realistic Conversational Question Answering with Answer Selection based on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文参考訳（メタデータ） (2023-02-10T09:42:07Z)
RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文参考訳（メタデータ） (2022-11-02T21:10:09Z)
Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。 Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-06T04:37:52Z)
Can Question Generation Debias Question Answering Models? A Case Study on Question-Context Lexical Overlap [25.80004272277982]
最近のニューラルQGモデルは、高い語彙重なり合う質問を生成することに偏っている。語彙重なりが低い質問を補足する同義語に基づく手法を提案する。
論文参考訳（メタデータ） (2021-09-23T09:53:54Z)
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。この問題を解決するための自己監督学習フレームワークを紹介します。我々の手法は最先端の手法を大きく上回ることができる。
論文参考訳（メタデータ） (2020-12-17T12:30:12Z)
A Wrong Answer or a Wrong Question? An Intricate Relationship between Question Reformulation and Answer Selection in Conversational Question Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。 TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文参考訳（メタデータ） (2020-10-13T06:29:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。