論文の概要: Replicability Measures for Longitudinal Information Retrieval Evaluation
- arxiv url: http://arxiv.org/abs/2409.05417v1
- Date: Mon, 09 Sep 2024 08:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:56:17.427673
- Title: Replicability Measures for Longitudinal Information Retrieval Evaluation
- Title(参考訳): 縦断的情報検索評価のための再現性対策
- Authors: Jüri Keller, Timo Breuer, Philipp Schaer,
- Abstract要約: この研究は、進化する実験で測定された有効性をどのように評価できるかを考察する。
再現性タスクとして有効性の持続性を検討した。
その結果、最も効果的なシステムは必ずしも最も持続的な性能を持つシステムではないことがわかった。
- 参考スコア(独自算出の注目度): 3.4917392789760147
- License:
- Abstract: Information Retrieval (IR) systems are exposed to constant changes in most components. Documents are created, updated, or deleted, the information needs are changing, and even relevance might not be static. While it is generally expected that the IR systems retain a consistent utility for the users, test collection evaluations rely on a fixed experimental setup. Based on the LongEval shared task and test collection, this work explores how the effectiveness measured in evolving experiments can be assessed. Specifically, the persistency of effectiveness is investigated as a replicability task. It is observed how the effectiveness progressively deteriorates over time compared to the initial measurement. Employing adapted replicability measures provides further insight into the persistence of effectiveness. The ranking of systems varies across retrieval measures and time. In conclusion, it was found that the most effective systems are not necessarily the ones with the most persistent performance.
- Abstract(参考訳): 情報検索(IR)システムは、ほとんどのコンポーネントにおいて一定の変化にさらされている。
ドキュメントは作成、更新、削除され、情報のニーズは変化しており、関連性さえ静的ではないかもしれない。
一般に、IRシステムはユーザに対して一貫したユーティリティを保持することが期待されているが、テストコレクションの評価は、固定された実験的な設定に依存している。
この研究は、LongEvalの共有タスクとテストコレクションに基づいて、進化する実験で測定された有効性をどのように評価するかを考察する。
具体的には, 再現性タスクとして有効性の持続性を検討した。
初期測定と比較して, 有効性が経時的に徐々に悪化していく様子が観察された。
適応的な再現性尺度を採用することで、有効性の持続性に関するさらなる洞察が得られる。
システムのランキングは、検索方法や時間によって異なる。
結論として、最も効果的なシステムは必ずしも最も持続的な性能を持つシステムではないことがわかった。
関連論文リスト
- Impact of Usability Mechanisms: A Family of Experiments on Efficiency, Effectiveness and User Satisfaction [0.5419296578793327]
ベースライン実験における結果の精度と一般化を高めるために、3つの実験のファミリーを用いる。
システムのユーザビリティは, 効率, 有効性, ユーザ満足度に関して大きく向上していると考えられる。
論文 参考訳(メタデータ) (2024-08-22T21:23:18Z) - Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Early Period of Training Impacts Out-of-Distribution Generalization [56.283944756315066]
ニューラルネットワークトレーニングの初期における学習力学とOOD一般化の関係について検討した。
トレーニング中に異なる時間にトレーニング可能なパラメータ数を選択することは、ID結果に極端に影響を及ぼすことを示す。
訓練初期におけるシャープネスの絶対値とフィッシャー情報の痕跡は,OOD一般化の指標にはならない。
論文 参考訳(メタデータ) (2024-03-22T13:52:53Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。
実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文 参考訳(メタデータ) (2021-10-07T08:52:48Z) - Human readable network troubleshooting based on anomaly detection and
feature scoring [11.593495085674343]
i) 時間領域における異常検出のための教師なし学習手法,(ii) 特徴空間における特徴のランク付けのための注意機構,(iii) 専門知識モジュールに基づくシステムを提案する。
本研究は, システム全体の性能と, 個々のビルディングブロックの性能を, 徹底的に評価する。
論文 参考訳(メタデータ) (2021-08-26T14:20:36Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - How Far Should We Look Back to Achieve Effective Real-Time Time-Series
Anomaly Detection? [1.0437764544103274]
異常検出は、予期せぬ事象やデータの異常を識別するプロセスである。
RePAD (Real-time Proactive Anomaly Detection algorithm) は上記の全ての特徴を持つ一般的な手法である。
歴史的データポイントの差がRePADの性能に与える影響は明らかでない。
論文 参考訳(メタデータ) (2021-02-12T14:51:05Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Uncertainty-Aware Deep Ensembles for Reliable and Explainable
Predictions of Clinical Time Series [21.11327248500246]
本稿では,深層学習に基づく時系列予測のための深層アンサンブル手法を提案する。
各モデルが生成する関連スコアに対して標準偏差をとることにより、関連スコアの不確実性の尺度を算出する。
以上の結果から,提案したアンサンブルは関連時間ステップの探索においてより正確であることが示唆された。
論文 参考訳(メタデータ) (2020-10-16T10:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。