論文の概要: Evaluating the Interpretability of Generative Models by Interactive
Reconstruction
- arxiv url: http://arxiv.org/abs/2102.01264v1
- Date: Tue, 2 Feb 2021 02:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 23:55:04.889131
- Title: Evaluating the Interpretability of Generative Models by Interactive
Reconstruction
- Title(参考訳): 対話型再構成によるジェネラティブモデルの解釈可能性評価
- Authors: Andrew Slavin Ross, Nina Chen, Elisa Zhao Hang, Elena L. Glassman,
Finale Doshi-Velez
- Abstract要約: 生成モデル表現の人間解釈可能性の定量化を課題とする。
このタスクのパフォーマンスは、ベースラインアプローチよりも、絡み合ったモデルと絡み合ったモデルをはるかに確実に区別する。
- 参考スコア(独自算出の注目度): 30.441247705313575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For machine learning models to be most useful in numerous sociotechnical
systems, many have argued that they must be human-interpretable. However,
despite increasing interest in interpretability, there remains no firm
consensus on how to measure it. This is especially true in representation
learning, where interpretability research has focused on "disentanglement"
measures only applicable to synthetic datasets and not grounded in human
factors. We introduce a task to quantify the human-interpretability of
generative model representations, where users interactively modify
representations to reconstruct target instances. On synthetic datasets, we find
performance on this task much more reliably differentiates entangled and
disentangled models than baseline approaches. On a real dataset, we find it
differentiates between representation learning methods widely believed but
never shown to produce more or less interpretable models. In both cases, we ran
small-scale think-aloud studies and large-scale experiments on Amazon
Mechanical Turk to confirm that our qualitative and quantitative results
agreed.
- Abstract(参考訳): 機械学習モデルが多数の社会技術システムで最も有用であるためには、多くはそれらが人間に解釈可能でなければならないと主張した。
しかし、解釈可能性への関心が高まりつつあるにもかかわらず、その測定方法に関する確固たるコンセンサスはいまだにない。
これは表現学習において特に当てはまり、解釈可能性の研究は、合成データセットにのみ適用され、人間の要因に基づかない「偏角」測定に焦点を当てている。
生成モデル表現の人間解釈可能性を定量化するタスクを導入し、ユーザが対話的に表現を修正してターゲットインスタンスを再構築する。
合成データセットでは、このタスクの性能がベースラインアプローチよりもはるかに確実に絡み合ったモデルと絡み合ったモデルを区別する。
実際のデータセットでは、広く信じられているが、多かれ少なかれ解釈可能なモデルを生成することが示されない表現学習方法の違いを見出す。
いずれの場合も、Amazon Mechanical Turkに関する小規模のシンクアルード研究と大規模実験を実施し、定性的および定量的な結果が一致したことを確認しました。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - Analyzing Effects of Mixed Sample Data Augmentation on Model
Interpretability [15.078314022161237]
モデルの学習における解釈可能性とデータ拡張戦略の関係について検討する。
実験により、混合サンプルデータ拡張で訓練されたモデルは、解釈可能性の低下を示すことが示された。
論文 参考訳(メタデータ) (2023-03-26T03:01:39Z) - Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Model Learning with Personalized Interpretability Estimation (ML-PIE) [2.862606936691229]
ハイステークアプリケーションは、AI生成モデルを解釈可能にする必要がある。
解釈可能なモデルの合成のための現在のアルゴリズムは、目的や正規化項に依存する。
本稿では,ユーザ向けにカスタマイズされたモデルの合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T09:47:48Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。