論文の概要: Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing
- arxiv url: http://arxiv.org/abs/2503.07823v1
- Date: Mon, 10 Mar 2025 20:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:32.123050
- Title: Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing
- Title(参考訳): メッセージパッシングに基づくSIGIR 2022レコメンダシステムペーパーの再現性とアーティファクト整合性
- Authors: Maurizio Ferrari Dacrema, Michael Benigni, Nicola Ferro,
- Abstract要約: 我々は、SIGIR 2022と2023で発表されたグラフベースのRecommender Systemsの10の論文を分析した。
分析の結果,注意を要するいくつかの重要な点が明らかになった。
これらの問題により、調査・再生を試みた論文のほとんどに記載された主張を裏付けることができない。
- 参考スコア(独自算出の注目度): 10.474191156751928
- License:
- Abstract: Graph-based techniques relying on neural networks and embeddings have gained attention as a way to develop Recommender Systems (RS) with several papers on the topic presented at SIGIR 2022 and 2023. Given the importance of ensuring that published research is methodologically sound and reproducible, in this paper we analyze 10 graph-based RS papers, most of which were published at SIGIR 2022, and assess their impact on subsequent work published in SIGIR 2023. Our analysis reveals several critical points that require attention: (i) the prevalence of bad practices, such as erroneous data splits or information leakage between training and testing data, which call into question the validity of the results; (ii) frequent inconsistencies between the provided artifacts (source code and data) and their descriptions in the paper, causing uncertainty about what is actually being evaluated; and (iii) the preference for new or complex baselines that are weaker compared to simpler ones, creating the impression of continuous improvement even when, particularly for the Amazon-Book dataset, the state-of-the-art has significantly worsened. Due to these issues, we are unable to confirm the claims made in most of the papers we examined and attempted to reproduce.
- Abstract(参考訳): ニューラルネットワークと埋め込みに依存するグラフベースのテクニックは、SIGIR 2022と2023で発表されたトピックに関するいくつかの論文とともに、Recommender Systems(RS)を開発する手段として注目されている。
本論文では,SIGIR 2022で発表された10枚のグラフベースのRS論文を解析し,その影響をSIGIR 2023で評価する。
私たちの分析では、注意を要するいくつかの重要なポイントが明らかになりました。
一 不正なデータ分割、研修データと試験データ間の情報漏洩等の悪習の頻度で、その結果の妥当性を疑う。
二 提供された遺物(ソースコード及びデータ)と論文中の記載との矛盾が頻発し、実際に評価されているものについて不確実性を引き起こすこと。
3) より単純なものよりも弱い新しいベースラインや複雑なベースラインを好み、特にAmazon-Bookデータセットでは、最先端が大幅に悪化しても継続的改善の印象が生じる。
これらの問題により、調査・再生を試みた論文のほとんどに記載された主張を裏付けることができない。
関連論文リスト
- WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.782357627001154]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (2024-12-04T23:36:23Z) - Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。
我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。
著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - Matching Papers and Reviewers at Large Conferences [25.79501640609188]
本稿では,AAAI第35回AI会議(AAAI 2021)で最近実施されたレビュアーとペーパーのマッチング手法について検討する。
本手法は,(1)問題のあるマッチングを識別し,レビュア紙スコアを生成するための入力データの収集と処理,(2)優れたレビュア紙マッチングを見つけるための最適化問題の定式化と解決,(3)拒絶される可能性のある論文から決定境界に近い論文へリソースを移行させる新たな2段階レビュープロセスの導入,の3つの要素を有する。
論文 参考訳(メタデータ) (2022-02-24T18:13:43Z) - Small data problems in political research: a critical replication study [5.698280399449707]
このデータから, ランダムな列車-テスト分割のばらつきに対して, 分類モデルに非常に敏感な結果が得られた。
また、適用された前処理により、データが極めてスパースであることも示している。
以上の結果から,組織評価ツイートの自動分類に関するA&Wの結論は維持できないと論じる。
論文 参考訳(メタデータ) (2021-09-27T09:55:58Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。