論文の概要: F1 is Not Enough! Models and Evaluation Towards User-Centered
Explainable Question Answering
- arxiv url: http://arxiv.org/abs/2010.06283v1
- Date: Tue, 13 Oct 2020 10:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:40:16.666893
- Title: F1 is Not Enough! Models and Evaluation Towards User-Centered
Explainable Question Answering
- Title(参考訳): f1が足りない!
ユーザ中心型説明可能な質問応答モデルと評価
- Authors: Hendrik Schuff, Heike Adel, Ngoc Thang Vu
- Abstract要約: 回答と説明の結合に関して、現在のモデルと評価設定に欠点があることが示される。
本稿では,階層モデルと新たな正規化項を提案し,回答-説明結合を強化する。
私たちのスコアはユーザエクスペリエンスと整合し,モデル選択の候補として期待できるものになります。
- 参考スコア(独自算出の注目度): 30.95495958937006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable question answering systems predict an answer together with an
explanation showing why the answer has been selected. The goal is to enable
users to assess the correctness of the system and understand its reasoning
process. However, we show that current models and evaluation settings have
shortcomings regarding the coupling of answer and explanation which might cause
serious issues in user experience. As a remedy, we propose a hierarchical model
and a new regularization term to strengthen the answer-explanation coupling as
well as two evaluation scores to quantify the coupling. We conduct experiments
on the HOTPOTQA benchmark data set and perform a user study. The user study
shows that our models increase the ability of the users to judge the
correctness of the system and that scores like F1 are not enough to estimate
the usefulness of a model in a practical setting with human users. Our scores
are better aligned with user experience, making them promising candidates for
model selection.
- Abstract(参考訳): 説明可能な質問応答システムは、回答が選択された理由を示す説明と共に回答を予測する。
目標は、ユーザがシステムの正確性を評価し、その推論プロセスを理解することにある。
しかし,現在のモデルと評価設定は,ユーザエクスペリエンスに深刻な問題を引き起こす可能性のある回答と説明の結合に関して,欠点があることが示されている。
そこで,本稿では,階層モデルと新たな正規化項を提案し,解-説明結合の強化と,結合の定量化のための2つの評価スコアを提案する。
我々はhotpotqaベンチマークデータセットの実験を行い,ユーザスタディを行う。
ユーザ調査の結果,本モデルではシステムの正確性を判断する能力が向上し,f1のようなスコアでは実用的環境でのモデルの有用性を推定できないことがわかった。
我々のスコアはユーザー体験に合致し、モデル選択に有望な候補となる。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - What Else Do I Need to Know? The Effect of Background Information on
Users' Reliance on QA Systems [23.69129423040988]
本研究では,予測に十分な情報がない場合のQAシステムとのインタラクションについて検討する。
本研究は,モデルの正しさを評価するのに十分な情報がない場合でも,利用者がモデル予測に頼っていることを明らかにした。
論文 参考訳(メタデータ) (2023-05-23T17:57:12Z) - Towards Teachable Reasoning Systems [29.59387051046722]
質問応答のための授業可能な推論システム(QA)を開発した。
私たちのアプローチは3つあります。 まず、生成された推論の連鎖は、システムの内部の信念によってどのように答えが示唆されるかを示しています。
第二に、ユーザーは説明と対話して誤ったモデル信念を特定し、修正を行うことができる。
第3に、そのような補正の動的なメモリでモデルを増強する。
論文 参考訳(メタデータ) (2022-04-27T17:15:07Z) - Using Interactive Feedback to Improve the Accuracy and Explainability of
Question Answering Systems Post-Deployment [20.601284299825895]
1)QAシステムのパフォーマンス自体の改善,2) 回答の正確性や誤りを説明する能力を備えたモデルの提供。
ユーザからの対話的なフィードバックを含む検索ベースのQAデータセットであるFeedbackQAを収集する。
フィードバックデータは、デプロイされたQAシステムの精度を向上するだけでなく、他のより強力な非デプロイシステムも改善することを示す。
論文 参考訳(メタデータ) (2022-04-06T18:17:09Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。