論文の概要: Human Evaluation of Spoken vs. Visual Explanations for Open-Domain QA
- arxiv url: http://arxiv.org/abs/2012.15075v1
- Date: Wed, 30 Dec 2020 08:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 16:38:28.431399
- Title: Human Evaluation of Spoken vs. Visual Explanations for Open-Domain QA
- Title(参考訳): Spoken vs. の人間による評価
オープンドメインQAのためのビジュアル説明
- Authors: Ana Valeria Gonzalez, Gagan Bansal, Angela Fan, Robin Jia, Yashar
Mehdad and Srinivasan Iyer
- Abstract要約: 本研究は,ODQAシステムの回答をいつ受理するか,拒否するかをユーザが正確に判断するのに役立つかを検討する。
その結果,得られたエビデンスパスから得られた説明は,モダリティ間で強いベースライン(校正信頼度)を上回る可能性が示唆された。
我々は,現在の説明に共通する障害事例を示し,説明のエンドツーエンド評価を強調し,デプロイと異なるプロキシモダリティで評価することを警告する。
- 参考スコア(独自算出の注目度): 22.76153284711981
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While research on explaining predictions of open-domain QA systems (ODQA) to
users is gaining momentum, most works have failed to evaluate the extent to
which explanations improve user trust. While few works evaluate explanations
using user studies, they employ settings that may deviate from the end-user's
usage in-the-wild: ODQA is most ubiquitous in voice-assistants, yet current
research only evaluates explanations using a visual display, and may
erroneously extrapolate conclusions about the most performant explanations to
other modalities. To alleviate these issues, we conduct user studies that
measure whether explanations help users correctly decide when to accept or
reject an ODQA system's answer. Unlike prior work, we control for explanation
modality, e.g., whether they are communicated to users through a spoken or
visual interface, and contrast effectiveness across modalities. Our results
show that explanations derived from retrieved evidence passages can outperform
strong baselines (calibrated confidence) across modalities but the best
explanation strategy in fact changes with the modality. We show common failure
cases of current explanations, emphasize end-to-end evaluation of explanations,
and caution against evaluating them in proxy modalities that are different from
deployment.
- Abstract(参考訳): オープンドメインQAシステム(ODQA)のユーザへの予測についての説明研究が盛んに行われているが,説明がユーザ信頼を高める程度の評価には至っていない。
ODQAは音声アシスタントにおいて最もユビキタスであるが、現在の研究はビジュアルディスプレイを用いた説明のみを評価し、他のモダリティに対する最もパフォーマンスの高い説明に関する結論を誤って外挿する可能性がある。
これらの問題を緩和するために、odqaシステムの回答をいつ受け入れるかをユーザーが正確に判断するのに役立つ説明を計測するユーザー調査を行う。
従来の作業とは異なり、説明モダリティ(例えば、音声またはビジュアルインターフェースを介してユーザと通信されるか、モダリティ間のコントラスト効果か)を制御する。
その結果,得られた証拠文から導かれた説明は,モダリティにまたがる強いベースライン(信頼度)を上回ることができるが,実際にモダリティによって変化する最良の説明戦略であることがわかった。
我々は,現在の説明に共通する障害事例を示し,説明のエンドツーエンド評価を強調し,デプロイと異なるプロキシモダリティで評価することを警告する。
関連論文リスト
- Auditing Local Explanations is Hard [14.172657936593582]
本研究では,第三者監査官やユーザ集団が健全性検査を行う監査フレームワークについて検討する。
監査人がこのフレームワーク内で成功するために必要なクエリの量について、上位と下位のバウンダリを証明します。
以上の結果から,複雑な高次元設定では,ポイントワイドな予測と説明が不十分である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-18T08:34:05Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Introducing User Feedback-based Counterfactual Explanations (UFCE) [49.1574468325115]
対実的説明(CE)は、XAIで理解可能な説明を生成するための有効な解決策として浮上している。
UFCEは、アクション可能な機能のサブセットで最小限の変更を決定するために、ユーザー制約を含めることができる。
UFCEは、textitproximity(英語版)、textitsparsity(英語版)、textitfeasibility(英語版)の2つのよく知られたCEメソッドより優れている。
論文 参考訳(メタデータ) (2024-02-26T20:09:44Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - How (Not) To Evaluate Explanation Quality [29.40729766120284]
タスクやドメインにまたがって適用される説明品質の望ましい特性を定式化する。
本稿では,今日の説明品質評価を制限する障害を克服するための実用的なガイドラインを提案する。
論文 参考訳(メタデータ) (2022-10-13T16:06:59Z) - Features of Explainability: How users understand counterfactual and
causal explanations for categorical and continuous features in XAI [10.151828072611428]
対物的説明は、AI決定の解釈可能性、レコメンデーション、バイアスに対処するためにますます使われています。
本研究では,ユーザ予測の客観的精度に対する反事実的・因果的説明の効果を検証した。
また, 利用者は, カテゴリー的特徴を参照する説明を, 連続的特徴を参照する説明よりも容易に理解できることがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:01:09Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - Explaining reputation assessments [6.87724532311602]
本稿では,定量的評価モデルによる評価の根拠を説明するためのアプローチを提案する。
提案手法は,複数属性決定モデルを用いて決定を下すための既存のアプローチを適応し,拡張し,組み合わせる。
論文 参考訳(メタデータ) (2020-06-15T23:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。