論文の概要: A Sentiment Analysis Dataset for Trustworthiness Evaluation
- arxiv url: http://arxiv.org/abs/2108.13140v1
- Date: Mon, 30 Aug 2021 11:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 18:18:41.772847
- Title: A Sentiment Analysis Dataset for Trustworthiness Evaluation
- Title(参考訳): 信頼度評価のための感情分析データセット
- Authors: Lijie Wang, Hao Liu, Shuyuan Peng, Hongxuan Tang, Xinyan Xiao, Ying
Chen, Hua Wu
- Abstract要約: 深層学習モデルはブラックボックス問題のために信頼できないとしばしば批判される。
我々は、頑健さと解釈可能性を評価するために、新しくよく注釈付けされた感情分析データセットをリリースする。
- 参考スコア(独自算出の注目度): 22.734197353027632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep learning models have greatly improved the performance of most
artificial intelligence tasks, they are often criticized to be untrustworthy
due to the black-box problem. Consequently, many works have been proposed to
study the trustworthiness of deep learning. However, as most open datasets are
designed for evaluating the accuracy of model outputs, there is still a lack of
appropriate datasets for evaluating the inner workings of neural networks. The
lack of datasets obviously hinders the development of trustworthiness research.
Therefore, in order to systematically evaluate the factors for building
trustworthy systems, we propose a novel and well-annotated sentiment analysis
dataset to evaluate robustness and interpretability. To evaluate these factors,
our dataset contains diverse annotations about the challenging distribution of
instances, manual adversarial instances and sentiment explanations. Several
evaluation metrics are further proposed for interpretability and robustness.
Based on the dataset and metrics, we conduct comprehensive comparisons for the
trustworthiness of three typical models, and also study the relations between
accuracy, robustness and interpretability. We release this trustworthiness
evaluation dataset at \url{https://github/xyz} and hope our work can facilitate
the progress on building more trustworthy systems for real-world applications.
- Abstract(参考訳): ディープラーニングモデルは、ほとんどの人工知能タスクのパフォーマンスを大幅に向上させたが、ブラックボックスの問題のために信頼できないとしばしば批判される。
その結果、深層学習の信頼性を研究するために多くの研究が提案されている。
しかし、ほとんどのオープンデータセットはモデル出力の精度を評価するために設計されているため、ニューラルネットワークの内部動作を評価するための適切なデータセットが不足している。
データセットの欠如は明らかに信頼性研究の発展を妨げる。
そこで,信頼度の高いシステムを構築するための要因を体系的に評価するために,ロバスト性や解釈性を評価するための新しい,注釈付き感情分析データセットを提案する。
これらの要因を評価するために、当社のデータセットには、インスタンスの分散の困難さ、手動の逆境インスタンス、感情説明に関する様々なアノテーションが含まれています。
解釈性とロバスト性に関して、いくつかの評価指標がさらに提案されている。
データセットとメトリクスに基づいて、3つの典型的なモデルの信頼性に関する総合的な比較を行い、精度、堅牢性、解釈可能性の関係について検討する。
私たちはこの信頼性評価データセットを \url{https://github/xyz} でリリースしています。
関連論文リスト
- Fairness without Sensitive Attributes via Knowledge Sharing [13.141672574114597]
本稿では,信頼度に基づく階層型分類手法であるReckonerを提案する。
実験の結果、ReckonerはCompASデータセットとNew Adultデータセットにおいて、最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-27T06:16:14Z) - Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文 参考訳(メタデータ) (2024-07-09T16:07:01Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Firenze: Model Evaluation Using Weak Signals [5.723905680436377]
本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
論文 参考訳(メタデータ) (2022-07-02T13:20:38Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Evaluating Predictive Distributions: Does Bayesian Deep Learning Work? [45.290773422944866]
後続の予測分布は、点推定によって無視される不確実性を定量化する。
本稿では,このような予測を生成するエージェントの系統的評価を行うためのツールである,The Neural Testbedを紹介する。
論文 参考訳(メタデータ) (2021-10-09T18:54:02Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。