論文の概要: Are We Really Measuring Progress? Transferring Insights from Evaluating Recommender Systems to Temporal Link Prediction
- arxiv url: http://arxiv.org/abs/2506.12588v1
- Date: Sat, 14 Jun 2025 17:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.499411
- Title: Are We Really Measuring Progress? Transferring Insights from Evaluating Recommender Systems to Temporal Link Prediction
- Title(参考訳): 進捗測定は本当に行われているか? -リコメンダシステムからテンポラルリンク予測への視点の移譲-
- Authors: Filip Cornell, Oleg Smirnov, Gabriela Zarzar Gandler, Lele Cao,
- Abstract要約: 最近の研究は、タスク設計、方法論の厳密さ、データ適合性に関する懸念を引用して、グラフ学習ベンチマークの信頼性を疑問視している。
この拡張要約では、時間リンク予測(TLP)の評価戦略に焦点を当て、この議論に貢献する。
現状の評価プロトコルは,(1)無矛盾なサンプリング基準,(2)頑健性を改善する手段としてしばしば導入されるハードネガティブサンプリングへの依存,(3)予測を組み合わせることで,ソースノード間の等質なベース確率を暗黙的に仮定する指標などによって影響を受けることが多い。
- 参考スコア(独自算出の注目度): 2.5957835343537266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has questioned the reliability of graph learning benchmarks, citing concerns around task design, methodological rigor, and data suitability. In this extended abstract, we contribute to this discussion by focusing on evaluation strategies in Temporal Link Prediction (TLP). We observe that current evaluation protocols are often affected by one or more of the following issues: (1) inconsistent sampled metrics, (2) reliance on hard negative sampling often introduced as a means to improve robustness, and (3) metrics that implicitly assume equal base probabilities across source nodes by combining predictions. We support these claims through illustrative examples and connections to longstanding concerns in the recommender systems community. Our ongoing work aims to systematically characterize these problems and explore alternatives that can lead to more robust and interpretable evaluation. We conclude with a discussion of potential directions for improving the reliability of TLP benchmarks.
- Abstract(参考訳): 最近の研究は、タスク設計、方法論の厳密さ、データ適合性に関する懸念を引用して、グラフ学習ベンチマークの信頼性を疑問視している。
本稿では、時間リンク予測(TLP)の評価戦略に焦点を当て、この議論に貢献する。
現状の評価プロトコルは,(1)無矛盾なサンプリング基準,(2)頑健性を改善する手段としてしばしば導入されるハードネガティブサンプリングへの依存,(3)予測を組み合わせることで,ソースノード間の等質なベース確率を暗黙的に仮定する指標などによって影響を受けることが多い。
これらの主張は、リコメンデータシステムコミュニティにおける長年の懸念に対する説明的な例とつながりを通じて支援します。
現在進行中の作業は、これらの問題を体系的に特徴づけ、より堅牢で解釈可能な評価につながる選択肢を探ることを目的としています。
我々は,TLPベンチマークの信頼性向上に向けた潜在的方向性について議論した。
関連論文リスト
- Statistical Early Stopping for Reasoning Models [32.80151987366704]
本稿では、この問題を緩和するために、発生中の不確実性信号を監視する統計的に原則化された早期停止手法を提案する。
以上の結果から,不確実性を考慮した早期停止はLCM推論の効率性と信頼性を両立させる可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-15T00:14:53Z) - Adaptive and Robust Cost-Aware Proof of Quality for Decentralized LLM Inference Networks [2.621929201001929]
我々は、対向レジリエントなコンセンサス形成を追加することで、コスト意識による品質証明機構を拡張した。
我々は評価器の信頼性を定量化し、相関を逆転できるタスク依存のミスアライメントを含む評価器間の強いばらつきを示す。
これらの発見は、コストを意識したProof of Qualityのデフォルトコンポーネントとして、堅牢なコンセンサスを動機付けている。
論文 参考訳(メタデータ) (2026-01-29T02:39:40Z) - Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models [0.0]
答えの不確かさは、ユーザーにとって誤解を招くことや深刻な幻覚を防ぐのに役立つ。
現在の方法では、無関係なトークンをフィルタリングし、近くのトークンや文間の潜在的な接続を調べることで、長い推論シーケンスを分析する。
本稿では,ステップ間の意味的相関を解析するために,ステップ間注意を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2026-01-19T20:04:34Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TIMING: Temporality-Aware Integrated Gradients for Time Series Explanation [30.866780156914512]
従来の統合勾配(IG)は、予測に正と負の両方の影響のある臨界点を効果的に捉える。
これらの課題を克服するために、TIMingを導入し、その理論的特性を維持しながら時間的認識を取り入れてIGを強化する。
論文 参考訳(メタデータ) (2025-06-05T13:40:40Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。
VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Indicators of Attack Failure: Debugging and Improving Optimization of
Adversarial Examples [29.385242714424624]
機械学習モデルの頑健さを敵の例に評価することは難しい問題である。
我々は、勾配に基づく攻撃の最適化において共通の障害を明らかにするための定量的指標のセットを定義する。
実験により,現在の対向ロバスト性評価を可視化し,デバッグし,改善するために,提案した障害指標が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T06:57:58Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。