論文の概要: Quality at the Tail
- arxiv url: http://arxiv.org/abs/2212.13925v2
- Date: Tue, 15 Aug 2023 10:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 17:27:57.363994
- Title: Quality at the Tail
- Title(参考訳): 尾の質
- Authors: Zhengxin Yang and Wanling Gao and Chunjie Luo and Lei Wang and Fei
Tang and Xu Wen and Jianfeng Zhan
- Abstract要約: 本稿では,推測時間と品質に影響を与える諸要因の総合的な評価と分析を行うための先駆的評価フレームワークを提案する。
評価フレームワークの有効性は、4つのシステムにまたがる3つの異なるタスクに対するディープラーニングモデルによる実験によって検証される。
- 参考スコア(独自算出の注目度): 6.463446901942362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarking and evaluating deep learning models and systems necessitate a
meticulous approach to ensure comprehensive assessment. In practical
applications, it is paramount to consider both the inference quality and the
inference time, particularly within critical contexts, where stringent
requirements demand the simultaneous satisfaction of both metrics. Neglecting
either aspect can result in severe and irreversible consequences, including
loss of human life and property damage. Unfortunately, many studies lack a
comprehensive consideration of these metrics, often conducted under ideal or
permissive conditions, thereby leading to incomplete or non-intuitive
evaluation methodologies.
This study reveals that deep learning inference quality exhibits
fluctuations, which further introduces complications and challenges to the
benchmarking and evaluation. To better characterize the phenomenon, the concept
of "tail quality" is introduced, which indicates the quality at the tail of
distributions. "Tail quality" can offer a more objective evaluation, overcoming
the limitations of conventional inference quality and inference time metrics in
capturing the quality fluctuation phenomenon. To capture the phenomenon, this
paper also proposes a pioneering evaluation framework for comprehensive
assessment and analysis of various factors affecting inference time and
quality. Leveraging this framework enables the anticipation of the potential
distribution of inference time and inference quality, thus capturing "tail
quality" before practically applying deep learning. The effectiveness of the
evaluation framework is validated through experiments conducted on deep
learning models for three different tasks across four systems. Furthermore,
employing this evaluation framework, the experiments conducted a preliminary
analysis of several factors influencing inference quality and inference time.
- Abstract(参考訳): ディープラーニングのモデルとシステムのベンチマークと評価には、総合的な評価を確保するための細心の注意を要する。
実用的なアプリケーションでは、推論の品質と推論時間の両方、特に、厳格な要求が両方のメトリクスの同時満足度を要求する重要なコンテキストにおいて考慮するのが最重要である。
どちらの側面も無視することは、人命の喪失や財産の損害など、重大で不可逆的な結果をもたらす可能性がある。
残念なことに、多くの研究はこれらの指標を包括的に考慮しておらず、しばしば理想的または許容的条件の下で行われ、その結果不完全または直観的評価方法論に繋がる。
本研究は、ディープラーニング推論品質が変動を示し、ベンチマークと評価の複雑さと課題を更に導入することを明らかにする。
この現象をよりよく特徴づけるために、分布の尾における品質を示す「テール品質」の概念が導入された。
品質変動現象を捉える上で、従来の推論品質と推論時間メトリクスの限界を克服し、より客観的な評価を提供することができる。
また,この現象を捉えるために,推定時間と品質に影響を与える諸要因を総合的に評価・分析するための先駆的評価フレームワークを提案する。
このフレームワークを活用することで、推論時間と推論品質の潜在的分布の予測が可能になる。
評価フレームワークの有効性は、4つのシステムにまたがる3つの異なるタスクに対するディープラーニングモデルによる実験によって検証される。
さらに, この評価枠組みを用いて, 予測品質と推定時間に影響を与える要因の予備分析を行った。
関連論文リスト
- Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - A Theoretical and Practical Framework for Evaluating Uncertainty Calibration in Object Detection [1.8843687952462744]
本研究では,不確実性校正の文脈において,物体検出システムを評価するための理論的,実践的な枠組みを提案する。
提案した不確実性校正指標のロバスト性は, 一連の代表的な実験を通して示される。
論文 参考訳(メタデータ) (2023-09-01T14:02:44Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Benchmarking Adversarial Robustness [47.168521143464545]
我々は、画像分類タスクにおける敵の堅牢性を評価するために、包括的で厳密でコヒーレントなベンチマークを確立する。
評価結果に基づいて,いくつかの重要な知見を導き,今後の研究への洞察を提供する。
論文 参考訳(メタデータ) (2019-12-26T12:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。