論文の概要: Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond
- arxiv url: http://arxiv.org/abs/2410.07158v2
- Date: Thu, 10 Oct 2024 16:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:56:57.463924
- Title: Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond
- Title(参考訳): Quanda: データ属性評価をトレーニングするための解釈可能性ツールキット
- Authors: Dilyara Bareeva, Galip Ümit Yolcu, Anna Hedström, Niklas Schmolenski, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin,
- Abstract要約: TDA(Training Data Attribution)メソッドは、ニューラルネットワークの解釈可能性のための有望な方向として登場した。
我々は,TDA手法の評価を容易にするために設計されたPythonツールキットQuandaを紹介する。
- 参考スコア(独自算出の注目度): 14.062323566963972
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.
- Abstract(参考訳): 近年,ニューラルネットワークの解釈可能性に期待できる方向として,トレーニングデータ属性(TDA)手法が登場している。
TDAに関する研究は盛んに行われているが、属性評価に限られた努力が注がれている。
従来の特徴帰属アプローチにおける評価指標の開発と同様に、様々な文脈におけるTDA手法の品質を評価するために、いくつかのスタンドアロンメトリクスが提案されている。
しかし、TDAメソッドに対する信頼を体系的に比較できる統一されたフレームワークが欠如しており、広く採用されていることを妨げている。
この研究ギャップに対処するために,我々は,TDA手法の評価を容易にするために設計されたPythonツールキットQuandaを紹介する。
包括的な評価指標を提供するだけでなく、Quandaはさまざまなリポジトリにまたがる既存のTDA実装とのシームレスな統合のための統一インターフェースを提供し、体系的なベンチマークを可能にする。
ツールキットはユーザフレンドリで、徹底的にテストされ、ドキュメント化されており、PyPi上でhttps://github.com/dilyabareeva/quanda.comでオープンソースライブラリとして利用できる。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - UDA-Bench: Revisiting Common Assumptions in Unsupervised Domain Adaptation Using a Standardized Framework [59.428668614618914]
現代無監督領域適応法(UDA)の有効性に影響を及ぼす様々な要因について, より深く考察する。
分析を容易にするため,ドメイン適応のためのトレーニングと評価を標準化する新しいPyTorchフレームワークであるUDA-Benchを開発した。
論文 参考訳(メタデータ) (2024-09-23T17:57:07Z) - BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。
説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文 参考訳(メタデータ) (2024-07-29T11:21:17Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Can We Evaluate Domain Adaptation Models Without Target-Domain Labels? [36.05871459064825]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル豊富なソースドメインでトレーニングされたモデルをラベルなしのターゲットドメインに適応させる。
現実のシナリオでは、ターゲットドメインラベルがないため、UDAモデルの性能を評価するのは難しい。
これらの問題に対処するため,textitTransfer Scoreと呼ばれる新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2023-05-30T03:36:40Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。