論文の概要: Are Metrics Enough? Guidelines for Communicating and Visualizing
Predictive Models to Subject Matter Experts
- arxiv url: http://arxiv.org/abs/2205.05749v2
- Date: Mon, 27 Mar 2023 21:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 20:05:13.787471
- Title: Are Metrics Enough? Guidelines for Communicating and Visualizing
Predictive Models to Subject Matter Experts
- Title(参考訳): メトリクスは十分か?
課題エキスパートを対象とする予測モデルのコミュニケーションと可視化に関するガイドライン
- Authors: Ashley Suh, Gabriel Appleby, Erik W. Anderson, Luca Finelli, Remco
Chang, Dylan Cashman
- Abstract要約: 本稿では,コミュニケーションのギャップを理解するために,課題の専門家とデータ科学者の双方による反復的研究について述べる。
モデルの強みと弱みを伝達するための共通媒体として可視化を利用する一連のコミュニケーションガイドラインを導出する。
- 参考スコア(独自算出の注目度): 7.768301998812552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Presenting a predictive model's performance is a communication bottleneck
that threatens collaborations between data scientists and subject matter
experts. Accuracy and error metrics alone fail to tell the whole story of a
model - its risks, strengths, and limitations - making it difficult for subject
matter experts to feel confident in their decision to use a model. As a result,
models may fail in unexpected ways or go entirely unused, as subject matter
experts disregard poorly presented models in favor of familiar, yet arguably
substandard methods. In this paper, we describe an iterative study conducted
with both subject matter experts and data scientists to understand the gaps in
communication between these two groups. We find that, while the two groups
share common goals of understanding the data and predictions of the model,
friction can stem from unfamiliar terms, metrics, and visualizations - limiting
the transfer of knowledge to SMEs and discouraging clarifying questions being
asked during presentations. Based on our findings, we derive a set of
communication guidelines that use visualization as a common medium for
communicating the strengths and weaknesses of a model. We provide a
demonstration of our guidelines in a regression modeling scenario and elicit
feedback on their use from subject matter experts. From our demonstration,
subject matter experts were more comfortable discussing a model's performance,
more aware of the trade-offs for the presented model, and better equipped to
assess the model's risks - ultimately informing and contextualizing the model's
use beyond text and numbers.
- Abstract(参考訳): 予測モデルのパフォーマンスを示すことは、データサイエンティストと主題の専門家のコラボレーションを脅かすコミュニケーションボトルネックである。
正確さとエラーのメトリクスだけでは、モデル全体、そのリスク、強み、限界などを伝えることができません。
結果として、モデルが予期せぬ方法で失敗したり、全く使われなかったりする可能性がある。
本稿では,これら2つのグループ間のコミュニケーションのギャップを理解するために,主題の専門家とデータサイエンティストの両方が行った反復研究について述べる。
2つのグループは、モデルのデータと予測を理解する共通の目標を共有しているが、摩擦は、不慣れな用語、メトリクス、視覚化によって引き起こされる可能性がある。
本研究では,モデルの強みと弱みを伝達するための共通媒体として可視化を利用する一連のコミュニケーションガイドラインを導出する。
我々は,回帰モデリングシナリオにおけるガイドラインの実証を行い,対象物質の専門家からのフィードバックを得た。
実演から,対象物の専門家は,モデルのパフォーマンスについてより快適に議論し,提示したモデルに対するトレードオフをより認識し,モデルのリスクを評価する能力が向上した。
関連論文リスト
- Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Interactive Model Cards: A Human-Centered Approach to Model
Documentation [20.880991026743498]
自然言語処理のためのディープラーニングモデルは、NLPや機械学習の正式なトレーニングなしに、アナリストによって採用され、デプロイされている。
モデルの詳細と適切な使用を伝達するためのドキュメンテーションは、主にMLやNLPの専門知識を持つ個人向けに調整されている。
我々は、インタラクティブなモデルカードの設計調査を行い、モデルドキュメンテーションを探索し、モデル自体と対話する余地を、従来の静的なモデルカードに拡張した。
論文 参考訳(メタデータ) (2022-05-05T19:19:28Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Representations of epistemic uncertainty and awareness in data-driven
strategies [0.0]
本稿では,エージェントによる知識表現とその伝達における不確実性の理論モデルを提案する。
我々は、推論、嗜好関係、情報測度の観点から、等価な知識表現を考察する。
本稿では,データ駆動戦略における提案モデルの有効性について論じる。
論文 参考訳(メタデータ) (2021-10-21T21:18:21Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。