論文の概要: Error Slice Discovery via Manifold Compactness
- arxiv url: http://arxiv.org/abs/2501.19032v1
- Date: Fri, 31 Jan 2025 11:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:20.189147
- Title: Error Slice Discovery via Manifold Compactness
- Title(参考訳): マニフォールドコンパクト性による誤差スライス発見
- Authors: Han Yu, Jiashuo Liu, Hao Zou, Renzhe Xu, Yue He, Xingxuan Zhang, Peng Cui,
- Abstract要約: 事前に定義されたスライスラベルのような余分な情報に頼ることなく、スライスコヒーレンスの適切なメトリックは存在しない。
本稿では,データ幾何特性を設計に組み込むことにより,余分な情報に依存しないコヒーレンス計量である多様体コンパクト性を提案する。
そこで我々は,リスクとコヒーレンスを直接最適化対象とする新しいアルゴリズムであるManifold Compactness based error Slice Discovery (MCSD)を開発した。
- 参考スコア(独自算出の注目度): 47.57891946791078
- License:
- Abstract: Despite the great performance of deep learning models in many areas, they still make mistakes and underperform on certain subsets of data, i.e. error slices. Given a trained model, it is important to identify its semantically coherent error slices that are easy to interpret, which is referred to as the error slice discovery problem. However, there is no proper metric of slice coherence without relying on extra information like predefined slice labels. Current evaluation of slice coherence requires access to predefined slices formulated by metadata like attributes or subclasses. Its validity heavily relies on the quality and abundance of metadata, where some possible patterns could be ignored. Besides, current algorithms cannot directly incorporate the constraint of coherence into their optimization objective due to the absence of an explicit coherence metric, which could potentially hinder their effectiveness. In this paper, we propose manifold compactness, a coherence metric without reliance on extra information by incorporating the data geometry property into its design, and experiments on typical datasets empirically validate the rationality of the metric. Then we develop Manifold Compactness based error Slice Discovery (MCSD), a novel algorithm that directly treats risk and coherence as the optimization objective, and is flexible to be applied to models of various tasks. Extensive experiments on the benchmark and case studies on other typical datasets demonstrate the superiority of MCSD.
- Abstract(参考訳): 多くの分野におけるディープラーニングモデルの優れたパフォーマンスにもかかわらず、間違いを犯し、データの特定のサブセット、すなわちエラースライスを過小評価している。
訓練されたモデルを考えると、解釈が容易な意味的に一貫性のあるエラースライスを識別することが重要であり、これはエラースライス発見問題と呼ばれる。
しかし、事前に定義されたスライスラベルのような余分な情報に頼ることなく、スライスコヒーレンスの適切な基準は存在しない。
スライスコヒーレンスの現在の評価では、属性やサブクラスといったメタデータで定式化されたスライスにアクセスする必要がある。
その妥当性は、いくつかのパターンを無視できるメタデータの品質と豊富さに大きく依存しています。
さらに、現在のアルゴリズムでは、明示的なコヒーレンス計量が存在しないため、コヒーレンスの制約を直接最適化目標に組み込むことができないため、その効果を阻害する可能性がある。
本稿では,データ幾何特性を設計に組み込んだ余分な情報に依存しないコヒーレンス計量である多様体コンパクト性を提案する。
そこで我々は,リスクとコヒーレンスを直接最適化対象として扱う新しいアルゴリズムであるManifold Compactness based error Slice Discovery (MCSD)を開発した。
ベンチマークに関する大規模な実験と、他の典型的なデータセットに関するケーススタディは、MCSDの優位性を示している。
関連論文リスト
- Dissecting embedding method: learning higher-order structures from data [0.0]
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
論文 参考訳(メタデータ) (2024-10-14T08:19:39Z) - What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing [44.370871446919594]
セマンティックデータスライシングをサポートするフレームワークであるSemSlicerを提案する。
SemSlicerは低コストで正確なスライスを生成し、性能の低いデータスライスを確実に識別し、実践者が体系的な問題を反映した有用なデータスライスを特定するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-09-14T02:15:50Z) - Exploiting the Data Gap: Utilizing Non-ignorable Missingness to Manipulate Model Learning [13.797822374912773]
敵対的ミススティングネス(AM)攻撃は、悪意ある無知の欠陥メカニズムによって動機づけられる。
本研究は,AM攻撃の文脈における連帯学習に焦点を当てる。
両レベルの最適化として,対向的欠落メカニズムの学習を定式化する。
論文 参考訳(メタデータ) (2024-09-06T17:10:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Explaining Predictions by Approximating the Local Decision Boundary [3.60160227126201]
局所決定境界近似(DBA)の新しい手法を提案する。
我々は変分オートエンコーダを訓練し、符号化されたデータ表現のユークリッド潜在空間を学習する。
我々は属性アノテーションを利用して、潜在空間をユーザにとって意味のある属性にマッピングします。
論文 参考訳(メタデータ) (2020-06-14T19:12:42Z) - Learning Flat Latent Manifolds with VAEs [16.725880610265378]
本稿では、ユークリッド計量がデータポイント間の類似性のプロキシとなる変分自動エンコーダのフレームワークの拡張を提案する。
我々は、変分オートエンコーダで一般的に使用されるコンパクトな以前のものを、最近発表されたより表現力のある階層型に置き換える。
提案手法は,ビデオ追跡ベンチマークを含む,さまざまなデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-12T09:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。