論文の概要: CVTT: Cross-Validation Through Time
- arxiv url: http://arxiv.org/abs/2205.05393v1
- Date: Wed, 11 May 2022 10:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 03:27:31.413951
- Title: CVTT: Cross-Validation Through Time
- Title(参考訳): CVTT: 時間を通してのクロスバリデーション
- Authors: Sergey Kolesnikov, Mikhail Andronov
- Abstract要約: 我々は、メソッドの連続的なパフォーマンスをなくすことで、ジョイントデータ-メソッド効果に関する貴重な洞察を失う可能性があると論じる。
提案手法を用いて、一般的なRecSysアルゴリズムの性能を様々なメトリクスやデータセットに対して詳細に分析する。
以上の結果から,モデルの性能は時間とともに著しく変化し,データと評価設定の両方が顕著な影響を及ぼす可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The practical aspects of evaluating recommender systems is an actively
discussed topic in the research community. While many current evaluation
techniques bring performance down to a single-value metric as a straightforward
approach for model comparison, it is based on a strong assumption of the
methods' stable performance over time. In this paper, we argue that leaving out
a method's continuous performance can lead to losing valuable insight into
joint data-method effects. We propose the Cross-Validation Thought Time (CVTT)
technique to perform more detailed evaluations, which focus on model
cross-validation performance over time. Using the proposed technique, we
conduct a detailed analysis of popular RecSys algorithms' performance against
various metrics and datasets. We also compare several data preparation and
evaluation strategies to analyze their impact on model performance. Our results
show that model performance can vary significantly over time, and both data and
evaluation setup can have a marked effect on it.
- Abstract(参考訳): 推薦システム評価の実践的側面は,研究コミュニティにおいて活発に議論されているトピックである。
現在の評価手法の多くは、モデル比較の簡単なアプローチとして、単一値のメトリクスにパフォーマンスをもたらすが、これは時間とともにメソッドの安定したパフォーマンスを強く仮定することに基づいている。
本稿では,手法の連続的な性能をなくすことで,共同データ・メソッド効果の貴重な洞察を失う可能性があると論じる。
本稿では,クロスバリデーション思考時間(CVTT)手法を提案し,より詳細な評価を行い,時間とともにクロスバリデーションのパフォーマンスをモデル化する。
提案手法を用いて、一般的なRecSysアルゴリズムの性能を様々なメトリクスやデータセットに対して詳細に分析する。
また、モデルの性能への影響を分析するために、いくつかのデータ準備と評価戦略を比較した。
その結果、モデルの性能は時間とともに大きく変化し、データと評価のセットアップがそれに顕著な影響を与えうることがわかった。
関連論文リスト
- Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Improving the Evaluation and Actionability of Explanation Methods for Multivariate Time Series Classification [4.588028371034407]
MTSCに適用された属性手法の評価手法であるInterpretTimeの分析に焦点をあてる。
提案手法のいくつかの重大な弱点を示し,その精度と効率を改善するためのアイデアを提案する。
SHAPやFeature Ablationのような摂動に基づく手法は、データセットの集合でうまく機能する。
論文 参考訳(メタデータ) (2024-06-18T11:18:46Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - From Variability to Stability: Advancing RecSys Benchmarking Practices [3.3331198926331784]
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを利用することで、データセット特性がアルゴリズム性能に与える影響を批判的に検証する。
論文 参考訳(メタデータ) (2024-02-15T07:35:52Z) - A Large-Scale Empirical Study on Improving the Fairness of Image Classification Models [22.522156479335706]
本稿では,現在ある最先端の公正性向上技術の性能を比較するための,最初の大規模実証的研究を行う。
その結果,各手法の性能は,データセットや属性によって大きく異なることがわかった。
異なる公平度評価指標は、その異なる焦点のために、明らかに異なる評価結果をもたらす。
論文 参考訳(メタデータ) (2024-01-08T06:53:33Z) - A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark [2.156208381257605]
我々は、最先端の顔年齢推定法について、広範囲に比較分析を行う。
その結果,他の要因と比較すると,手法間の性能差は無視できることがわかった。
バックボーンモデルとしてFaRLを用い,すべての公開データセット上での有効性を実証する。
論文 参考訳(メタデータ) (2023-07-10T14:02:31Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。