論文の概要: Pachinko: Patching Interpretable QA Models through Natural Language
Feedback
- arxiv url: http://arxiv.org/abs/2311.09558v1
- Date: Thu, 16 Nov 2023 04:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:39:12.602025
- Title: Pachinko: Patching Interpretable QA Models through Natural Language
Feedback
- Title(参考訳): Pachinko: 自然言語フィードバックによる解釈可能なQAモデルへのパッチ
- Authors: Chaitanya Malaviya, Subin Lee, Dan Roth, Mark Yatskar
- Abstract要約: 我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
これらの有理性の様々な形式を、関心の明確な性質によって異なるものとみなす。
評定に影響を及ぼすことに加えて、一部のフォーマットは、ユーザーが報告したモデル出力の理解と信頼を著しく向上させる。
- 参考スコア(独自算出の注目度): 58.42753581189251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliciting feedback from end users of NLP models can be beneficial for
improving models. However, how should we present model responses to users so
they are most amenable to be corrected from user feedback? Further, what
properties do users value to understand and trust responses? We answer these
questions by analyzing the effect of rationales generated by QA models to
support their answers. We specifically consider decomposed question-answering
models that first extract an intermediate rationale based on a context and a
question and then use solely this rationale to answer the question. A rationale
outlines the approach followed by the model to answer the question. Our work
considers various formats of these rationales that vary according to
well-defined properties of interest. We sample these rationales from large
language models using few-shot prompting for two reading comprehension
datasets, and then perform two user studies. In the first one, we present users
with incorrect answers and corresponding rationales of various formats and ask
them to provide natural language feedback to revise the rationale. We then
measure the effectiveness of this feedback in patching these rationales through
in-context learning. The second study evaluates how well different rationale
formats enable users to understand and trust model answers, when they are
correct. We find that rationale formats significantly affect how easy it is (1)
for users to give feedback for rationales, and (2) for models to subsequently
execute this feedback. In addition to influencing critiquablity, certain
formats significantly enhance user reported understanding and trust of model
outputs.
- Abstract(参考訳): NLPモデルのエンドユーザーからのフィードバックを緩和することは、モデルを改善するのに有益である。
しかし、ユーザからのフィードバックから最も修正しやすいように、モデル応答をユーザにどのように提示するか。
さらに、ユーザが理解し、回答を信頼するために、どのような特性が重要か?
これらの質問に対して,QAモデルが生成した有理性の効果を分析して回答を裏付ける。
具体的には、まず、文脈と質問に基づいて中間的論理を抽出し、この論理のみを用いて質問に答える解答モデルについて検討する。
根拠は、その質問に答えるためのモデルに続くアプローチを概説する。
我々の研究は、興味のある性質によって異なるこれらの有理数の様々な形式を考察している。
2つの読解データセットに対して,マイトショットプロンプトを用いて,大規模言語モデルからこれらの根拠をサンプリングし,2つのユーザ研究を行った。
まず, ユーザに対して, 様々な形式に対する誤った回答とそれに対応する理性を示し, その理性を改善するために, 自然言語フィードバックの提供を依頼する。
次に,このフィードバックの有効性を,文脈内学習を通じて評価する。
第2の研究では、異なる合理化形式によって、ユーザーがモデルの答えを正しく理解し、信頼することができるかを評価する。
合理的な形式は,(1)ユーザが合理的なフィードバックを与えるのがいかに簡単か,(2)モデルがこのフィードバックを実行するのがより容易かに大きく影響することがわかった。
評定に影響を及ぼすことに加えて、一部のフォーマットは、ユーザーが報告したモデル出力の理解と信頼を著しく向上させる。
関連論文リスト
- RefuteBench: Evaluating Refuting Instruction-Following for Large
Language Models [19.985647101348775]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models
for Question Answering [18.13594377768088]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Do Users Benefit From Interpretable Vision? A User Study, Baseline, And
Dataset [8.863479255829139]
本研究では,ベースラインの説明手法が,概念に基づく,反現実的な説明に対してどのように機能するかを検証するために,ユーザスタディを実施している。
そこで,本研究では,参加者が属性の集合を,基幹構造と比較して識別できるかどうかを検証した。
非可逆ニューラルネットワークからの対実的説明はベースラインと同様に実行された。
論文 参考訳(メタデータ) (2022-04-25T13:20:06Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - E-commerce Query-based Generation based on User Review [1.484852576248587]
本稿では,従来のユーザによるレビューに基づいて,ユーザの質問に対する回答を生成するための新しいセク2seqベースのテキスト生成モデルを提案する。
ユーザの質問や感情の極性が与えられた場合,関心事の側面を抽出し,過去のユーザレビューを要約した回答を生成する。
論文 参考訳(メタデータ) (2020-11-11T04:58:31Z) - F1 is Not Enough! Models and Evaluation Towards User-Centered
Explainable Question Answering [30.95495958937006]
回答と説明の結合に関して、現在のモデルと評価設定に欠点があることが示される。
本稿では,階層モデルと新たな正規化項を提案し,回答-説明結合を強化する。
私たちのスコアはユーザエクスペリエンスと整合し,モデル選択の候補として期待できるものになります。
論文 参考訳(メタデータ) (2020-10-13T10:53:20Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。