論文の概要: Are We Really Measuring Progress? Transferring Insights from Evaluating Recommender Systems to Temporal Link Prediction
- arxiv url: http://arxiv.org/abs/2506.12588v1
- Date: Sat, 14 Jun 2025 17:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.499411
- Title: Are We Really Measuring Progress? Transferring Insights from Evaluating Recommender Systems to Temporal Link Prediction
- Title(参考訳): 進捗測定は本当に行われているか? -リコメンダシステムからテンポラルリンク予測への視点の移譲-
- Authors: Filip Cornell, Oleg Smirnov, Gabriela Zarzar Gandler, Lele Cao,
- Abstract要約: 最近の研究は、タスク設計、方法論の厳密さ、データ適合性に関する懸念を引用して、グラフ学習ベンチマークの信頼性を疑問視している。
この拡張要約では、時間リンク予測(TLP)の評価戦略に焦点を当て、この議論に貢献する。
現状の評価プロトコルは,(1)無矛盾なサンプリング基準,(2)頑健性を改善する手段としてしばしば導入されるハードネガティブサンプリングへの依存,(3)予測を組み合わせることで,ソースノード間の等質なベース確率を暗黙的に仮定する指標などによって影響を受けることが多い。
- 参考スコア(独自算出の注目度): 2.5957835343537266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has questioned the reliability of graph learning benchmarks, citing concerns around task design, methodological rigor, and data suitability. In this extended abstract, we contribute to this discussion by focusing on evaluation strategies in Temporal Link Prediction (TLP). We observe that current evaluation protocols are often affected by one or more of the following issues: (1) inconsistent sampled metrics, (2) reliance on hard negative sampling often introduced as a means to improve robustness, and (3) metrics that implicitly assume equal base probabilities across source nodes by combining predictions. We support these claims through illustrative examples and connections to longstanding concerns in the recommender systems community. Our ongoing work aims to systematically characterize these problems and explore alternatives that can lead to more robust and interpretable evaluation. We conclude with a discussion of potential directions for improving the reliability of TLP benchmarks.
- Abstract(参考訳): 最近の研究は、タスク設計、方法論の厳密さ、データ適合性に関する懸念を引用して、グラフ学習ベンチマークの信頼性を疑問視している。
本稿では、時間リンク予測(TLP)の評価戦略に焦点を当て、この議論に貢献する。
現状の評価プロトコルは,(1)無矛盾なサンプリング基準,(2)頑健性を改善する手段としてしばしば導入されるハードネガティブサンプリングへの依存,(3)予測を組み合わせることで,ソースノード間の等質なベース確率を暗黙的に仮定する指標などによって影響を受けることが多い。
これらの主張は、リコメンデータシステムコミュニティにおける長年の懸念に対する説明的な例とつながりを通じて支援します。
現在進行中の作業は、これらの問題を体系的に特徴づけ、より堅牢で解釈可能な評価につながる選択肢を探ることを目的としています。
我々は,TLPベンチマークの信頼性向上に向けた潜在的方向性について議論した。
関連論文リスト
- TIMING: Temporality-Aware Integrated Gradients for Time Series Explanation [30.866780156914512]
従来の統合勾配(IG)は、予測に正と負の両方の影響のある臨界点を効果的に捉える。
これらの課題を克服するために、TIMingを導入し、その理論的特性を維持しながら時間的認識を取り入れてIGを強化する。
論文 参考訳(メタデータ) (2025-06-05T13:40:40Z) - VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。
VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。