Fugu-MT 論文翻訳(概要): Are We Really Measuring Progress? Transferring Insights from Evaluating Recommender Systems to Temporal Link Prediction

論文の概要: Are We Really Measuring Progress? Transferring Insights from Evaluating Recommender Systems to Temporal Link Prediction

arxiv url: http://arxiv.org/abs/2506.12588v1
Date: Sat, 14 Jun 2025 17:53:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:46.499411
Title: Are We Really Measuring Progress? Transferring Insights from Evaluating Recommender Systems to Temporal Link Prediction
Title（参考訳）: 進捗測定は本当に行われているか? -リコメンダシステムからテンポラルリンク予測への視点の移譲-
Authors: Filip Cornell, Oleg Smirnov, Gabriela Zarzar Gandler, Lele Cao,
Abstract要約: 最近の研究は、タスク設計、方法論の厳密さ、データ適合性に関する懸念を引用して、グラフ学習ベンチマークの信頼性を疑問視している。この拡張要約では、時間リンク予測(TLP)の評価戦略に焦点を当て、この議論に貢献する。現状の評価プロトコルは,(1)無矛盾なサンプリング基準,(2)頑健性を改善する手段としてしばしば導入されるハードネガティブサンプリングへの依存,(3)予測を組み合わせることで,ソースノード間の等質なベース確率を暗黙的に仮定する指標などによって影響を受けることが多い。
参考スコア（独自算出の注目度）: 2.5957835343537266
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent work has questioned the reliability of graph learning benchmarks, citing concerns around task design, methodological rigor, and data suitability. In this extended abstract, we contribute to this discussion by focusing on evaluation strategies in Temporal Link Prediction (TLP). We observe that current evaluation protocols are often affected by one or more of the following issues: (1) inconsistent sampled metrics, (2) reliance on hard negative sampling often introduced as a means to improve robustness, and (3) metrics that implicitly assume equal base probabilities across source nodes by combining predictions. We support these claims through illustrative examples and connections to longstanding concerns in the recommender systems community. Our ongoing work aims to systematically characterize these problems and explore alternatives that can lead to more robust and interpretable evaluation. We conclude with a discussion of potential directions for improving the reliability of TLP benchmarks.
Abstract（参考訳）: 最近の研究は、タスク設計、方法論の厳密さ、データ適合性に関する懸念を引用して、グラフ学習ベンチマークの信頼性を疑問視している。本稿では、時間リンク予測(TLP)の評価戦略に焦点を当て、この議論に貢献する。現状の評価プロトコルは,(1)無矛盾なサンプリング基準,(2)頑健性を改善する手段としてしばしば導入されるハードネガティブサンプリングへの依存,(3)予測を組み合わせることで,ソースノード間の等質なベース確率を暗黙的に仮定する指標などによって影響を受けることが多い。これらの主張は、リコメンデータシステムコミュニティにおける長年の懸念に対する説明的な例とつながりを通じて支援します。現在進行中の作業は、これらの問題を体系的に特徴づけ、より堅牢で解釈可能な評価につながる選択肢を探ることを目的としています。我々は,TLPベンチマークの信頼性向上に向けた潜在的方向性について議論した。

関連論文リスト

TIMING: Temporality-Aware Integrated Gradients for Time Series Explanation [30.866780156914512]
従来の統合勾配(IG)は、予測に正と負の両方の影響のある臨界点を効果的に捉える。これらの課題を克服するために、TIMingを導入し、その理論的特性を維持しながら時間的認識を取り入れてIGを強化する。
論文参考訳（メタデータ） (2025-06-05T13:40:40Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文参考訳（メタデータ） (2024-12-24T16:51:35Z)
VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。 VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文参考訳（メタデータ） (2024-06-07T16:24:12Z)
Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-02T17:13:16Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文参考訳（メタデータ） (2023-04-13T17:56:08Z)
ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文参考訳（メタデータ） (2022-11-21T13:23:09Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
Indicators of Attack Failure: Debugging and Improving Optimization of Adversarial Examples [29.385242714424624]
機械学習モデルの頑健さを敵の例に評価することは難しい問題である。我々は、勾配に基づく攻撃の最適化において共通の障害を明らかにするための定量的指標のセットを定義する。実験により,現在の対向ロバスト性評価を可視化し,デバッグし,改善するために,提案した障害指標が有効であることを示す。
論文参考訳（メタデータ） (2021-06-18T06:57:58Z)
Modeling Online Behavior in Recommender Systems: The Importance of Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文参考訳（メタデータ） (2020-09-19T19:36:43Z)
Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文参考訳（メタデータ） (2020-07-25T17:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。