論文の概要: What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception
- arxiv url: http://arxiv.org/abs/2311.09558v2
- Date: Tue, 2 Apr 2024 00:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:23:14.912149
- Title: What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception
- Title(参考訳): もし違うことを言ったら?:説明は人間のフィードバック効果とユーザ知覚にどのように影響するか
- Authors: Chaitanya Malaviya, Subin Lee, Dan Roth, Mark Yatskar,
- Abstract要約: 我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
- 参考スコア(独自算出の注目度): 53.4840989321394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliciting feedback from end users of NLP models can be beneficial for improving models. However, how should we present model responses to users so they are most amenable to be corrected from user feedback? Further, what properties do users value to understand and trust responses? We answer these questions by analyzing the effect of rationales (or explanations) generated by QA models to support their answers. We specifically consider decomposed QA models that first extract an intermediate rationale based on a context and a question and then use solely this rationale to answer the question. A rationale outlines the approach followed by the model to answer the question. Our work considers various formats of these rationales that vary according to well-defined properties of interest. We sample rationales from language models using few-shot prompting for two datasets, and then perform two user studies. First, we present users with incorrect answers and corresponding rationales in various formats and ask them to provide natural language feedback to revise the rationale. We then measure the effectiveness of this feedback in patching these rationales through in-context learning. The second study evaluates how well different rationale formats enable users to understand and trust model answers, when they are correct. We find that rationale formats significantly affect how easy it is (1) for users to give feedback for rationales, and (2) for models to subsequently execute this feedback. In addition, formats with attributions to the context and in-depth reasoning significantly enhance user-reported understanding and trust of model outputs.
- Abstract(参考訳): NLPモデルのエンドユーザーからのフィードバックを緩和することは、モデルを改善するのに有益である。
しかし、ユーザからのフィードバックから最も修正しやすいように、モデル応答をユーザにどのように提示するか。
さらに、ユーザが理解し、回答を信頼するために、どのような特性が重要か?
本稿では,QAモデルが生成した理性(あるいは説明)の効果を分析して,これらの疑問に答える。
具体的には、まず、文脈と質問に基づいて中間的論理を抽出し、この論理のみを用いて質問に答える分解QAモデルについて検討する。
根拠は、その質問に答えるためのモデルに続くアプローチを概説する。
我々の研究は、関心の明確な性質によって異なるこれらの有理数の様々な形式を考察している。
2つのデータセットに対して少数ショットプロンプトを使用して言語モデルから有理をサンプリングし、2つのユーザスタディを実行する。
まず, ユーザに対して, 様々な形式における不正確な回答とそれに対応する有理性を提示し, それらの有理性を改善するために, 自然言語フィードバックの提供を依頼する。
次に,このフィードバックの有効性を,文脈内学習を通じて評価する。
第2の研究では、ユーザが正しいときにモデル回答を理解し、信頼することのできる、合理的なフォーマットの相違について評価する。
合理的な形式は,(1)ユーザが合理的なフィードバックを与えるのがいかに簡単か,(2)モデルがこのフィードバックを実行するのがより容易かに大きく影響することがわかった。
さらに、コンテキストと奥行き推論への属性を持つフォーマットは、ユーザ報告によるモデル出力の理解と信頼を著しく向上させる。
関連論文リスト
- Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - Disentangling Likes and Dislikes in Personalized Generative Explainable Recommendation [26.214148426964794]
ユーザの感情に焦点をあてた新しいデータセットと評価手法を導入する。
購入後のレビューから,ユーザの肯定的,否定的な意見を明示的に抽出し,データセットを構築する。
生成した説明文がユーザの感情に合致するかどうかに基づいてシステムを評価することを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:15:00Z) - When factorization meets argumentation: towards argumentative explanations [0.0]
因数分解に基づく手法と議論フレームワーク(AF)を組み合わせた新しいモデルを提案する。
我々のフレームワークは、ユーザコンテキストなどのサイド情報をシームレスに組み込んで、より正確な予測を可能にします。
論文 参考訳(メタデータ) (2024-05-13T19:16:28Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Do Users Benefit From Interpretable Vision? A User Study, Baseline, And
Dataset [8.863479255829139]
本研究では,ベースラインの説明手法が,概念に基づく,反現実的な説明に対してどのように機能するかを検証するために,ユーザスタディを実施している。
そこで,本研究では,参加者が属性の集合を,基幹構造と比較して識別できるかどうかを検証した。
非可逆ニューラルネットワークからの対実的説明はベースラインと同様に実行された。
論文 参考訳(メタデータ) (2022-04-25T13:20:06Z) - Not all users are the same: Providing personalized explanations for
sequential decision making problems [25.24098967133101]
本研究では,エンドツーエンドの適応的説明生成システムを提案する。
最初は、エージェントが対話できるさまざまなタイプのユーザを学習することから始まる。
その後、ハエの型を特定し、それに応じて説明を調整する。
論文 参考訳(メタデータ) (2021-06-23T07:46:19Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - F1 is Not Enough! Models and Evaluation Towards User-Centered
Explainable Question Answering [30.95495958937006]
回答と説明の結合に関して、現在のモデルと評価設定に欠点があることが示される。
本稿では,階層モデルと新たな正規化項を提案し,回答-説明結合を強化する。
私たちのスコアはユーザエクスペリエンスと整合し,モデル選択の候補として期待できるものになります。
論文 参考訳(メタデータ) (2020-10-13T10:53:20Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。