論文の概要: XMD: An End-to-End Framework for Interactive Explanation-Based Debugging
of NLP Models
- arxiv url: http://arxiv.org/abs/2210.16978v1
- Date: Sun, 30 Oct 2022 23:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:09:58.344705
- Title: XMD: An End-to-End Framework for Interactive Explanation-Based Debugging
of NLP Models
- Title(参考訳): XMD:NLPモデルの対話的説明に基づくデバッグのためのエンドツーエンドフレームワーク
- Authors: Dong-Ho Lee, Akshen Kadakia, Brihi Joshi, Aaron Chan, Ziyi Liu, Kiran
Narahari, Takashi Shibuya, Ryosuke Mitani, Toshiyuki Sekiya, Jay Pujara,
Xiang Ren
- Abstract要約: 説明に基づくモデルデバッギングは,モデル動作の説明を人間に示すことによって,突発的なバイアスを解決することを目的としている。
我々は、説明に基づくモデルデバッグのための、最初のオープンソースのエンドツーエンドフレームワークであるXMDを提案する。
XMDは、モデルがユーザーのフィードバックと一致するように規則化することで、モデルをリアルタイムで更新する。
- 参考スコア(独自算出の注目度): 33.81019305179569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP models are susceptible to learning spurious biases (i.e., bugs) that work
on some datasets but do not properly reflect the underlying task.
Explanation-based model debugging aims to resolve spurious biases by showing
human users explanations of model behavior, asking users to give feedback on
the behavior, then using the feedback to update the model. While existing model
debugging methods have shown promise, their prototype-level implementations
provide limited practical utility. Thus, we propose XMD: the first open-source,
end-to-end framework for explanation-based model debugging. Given task- or
instance-level explanations, users can flexibly provide various forms of
feedback via an intuitive, web-based UI. After receiving user feedback, XMD
automatically updates the model in real time, by regularizing the model so that
its explanations align with the user feedback. The new model can then be easily
deployed into real-world applications via Hugging Face. Using XMD, we can
improve the model's OOD performance on text classification tasks by up to 18%.
- Abstract(参考訳): NLPモデルは、いくつかのデータセットで機能する急激なバイアス(すなわちバグ)を学ぶことができるが、基礎となるタスクを適切に反映しない。
説明に基づくモデルデバッギングは,モデル動作の説明を人間に提示し,ユーザに行動に対するフィードバックを与え,モデル更新にフィードバックを使用することによって,突発的なバイアスを解決することを目的としている。
既存のモデルデバッグメソッドにはprototypeがあるが、プロトタイプレベルの実装は実用性に制限がある。
そこで我々は,説明に基づくモデルデバッギングのための,最初のオープンソースのエンドツーエンドフレームワークであるXMDを提案する。
タスクレベルの説明やインスタンスレベルの説明があれば、ユーザは直感的でWebベースのUIを通じて、さまざまな形式のフィードバックを柔軟に提供できます。
ユーザのフィードバックを受けた後、xmdはモデルがユーザのフィードバックに合致するようにモデルを調整することで、モデルを自動的にリアルタイムで更新する。
新しいモデルは、Hugging Faceを通じて、現実世界のアプリケーションに簡単にデプロイできる。
XMDを用いて,テキスト分類タスクにおけるOOD性能を最大18%向上させることができる。
関連論文リスト
- RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Increasing Performance And Sample Efficiency With Model-agnostic
Interactive Feature Attributions [3.0655581300025996]
我々は,2つの一般的な説明手法(Occlusion と Shapley の値)に対して,モデルに依存しない実装を提供し,その複雑なモデルにおいて,完全に異なる属性を強制する。
提案手法は,修正された説明に基づいてトレーニングデータセットを増強することで,モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-28T15:23:28Z) - Earning Extra Performance from Restrictive Feedbacks [41.05874087063763]
モデルチューニング問題の形式を記述するために,rerestriCTive feeddbacks (EXPECTED) から emphEarning eXtra PerformancE という課題を設定した。
モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足のいくモデルを提供することです。
本稿では,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。
論文 参考訳(メタデータ) (2023-04-28T13:16:54Z) - IFAN: An Explainability-Focused Interaction Framework for Humans and NLP
Models [13.158002463564895]
解釈可能性と人間の監視は、複雑なNLPモデルを現実世界のアプリケーションにデプロイする基本的な柱である。
NLPモデルとのリアルタイムな説明に基づくインタラクションのためのフレームワークIFANを提案する。
論文 参考訳(メタデータ) (2023-03-06T13:37:59Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Improving scripts with a memory of natural feedback [38.81097942561449]
出力中のエラーに関するフィードバックが増大する動的メモリアーキテクチャを作成します。
スクリプト生成タスクでは、モデルがフィードバックを効果的に適用することを経験的に示す。
これは、デプロイされたモデルを強化するための第一歩であり、ユーティリティを拡大する可能性がある。
論文 参考訳(メタデータ) (2021-12-16T07:01:28Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - ViCE: Visual Counterfactual Explanations for Machine Learning Models [13.94542147252982]
本稿では,対話型視覚分析ツールViCEを提案する。
結果が視覚インターフェースに効果的に表示され、そのデータとモデルを探索するための対話的手法が提供される。
論文 参考訳(メタデータ) (2020-03-05T04:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。