論文の概要: Replicability Measures for Longitudinal Information Retrieval Evaluation
- arxiv url: http://arxiv.org/abs/2409.05417v1
- Date: Mon, 09 Sep 2024 08:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:56:17.427673
- Title: Replicability Measures for Longitudinal Information Retrieval Evaluation
- Title(参考訳): 縦断的情報検索評価のための再現性対策
- Authors: Jüri Keller, Timo Breuer, Philipp Schaer,
- Abstract要約: この研究は、進化する実験で測定された有効性をどのように評価できるかを考察する。
再現性タスクとして有効性の持続性を検討した。
その結果、最も効果的なシステムは必ずしも最も持続的な性能を持つシステムではないことがわかった。
- 参考スコア(独自算出の注目度): 3.4917392789760147
- License:
- Abstract: Information Retrieval (IR) systems are exposed to constant changes in most components. Documents are created, updated, or deleted, the information needs are changing, and even relevance might not be static. While it is generally expected that the IR systems retain a consistent utility for the users, test collection evaluations rely on a fixed experimental setup. Based on the LongEval shared task and test collection, this work explores how the effectiveness measured in evolving experiments can be assessed. Specifically, the persistency of effectiveness is investigated as a replicability task. It is observed how the effectiveness progressively deteriorates over time compared to the initial measurement. Employing adapted replicability measures provides further insight into the persistence of effectiveness. The ranking of systems varies across retrieval measures and time. In conclusion, it was found that the most effective systems are not necessarily the ones with the most persistent performance.
- Abstract(参考訳): 情報検索(IR)システムは、ほとんどのコンポーネントにおいて一定の変化にさらされている。
ドキュメントは作成、更新、削除され、情報のニーズは変化しており、関連性さえ静的ではないかもしれない。
一般に、IRシステムはユーザに対して一貫したユーティリティを保持することが期待されているが、テストコレクションの評価は、固定された実験的な設定に依存している。
この研究は、LongEvalの共有タスクとテストコレクションに基づいて、進化する実験で測定された有効性をどのように評価するかを考察する。
具体的には, 再現性タスクとして有効性の持続性を検討した。
初期測定と比較して, 有効性が経時的に徐々に悪化していく様子が観察された。
適応的な再現性尺度を採用することで、有効性の持続性に関するさらなる洞察が得られる。
システムのランキングは、検索方法や時間によって異なる。
結論として、最も効果的なシステムは必ずしも最も持続的な性能を持つシステムではないことがわかった。
関連論文リスト
- Impact of Usability Mechanisms: A Family of Experiments on Efficiency, Effectiveness and User Satisfaction [0.5419296578793327]
ベースライン実験における結果の精度と一般化を高めるために、3つの実験のファミリーを用いる。
システムのユーザビリティは, 効率, 有効性, ユーザ満足度に関して大きく向上していると考えられる。
論文 参考訳(メタデータ) (2024-08-22T21:23:18Z) - Analyzing the Effectiveness of Listwise Reranking with Positional Invariance on Temporal Generalizability [20.797306325588153]
本研究では,静的知識文書における検索性能の学習と実環境における評価の理解のギャップを強調した。
本研究は,時間分布シフトによる不正確性に対処するリストワイズ・アプローチの有効性を実証するものである。
リストワイドリランカでは,Fusion-in-Decoderアーキテクチャを採用することで,ListT5が位置バイアス問題を効果的に軽減できることが示唆された。
論文 参考訳(メタデータ) (2024-07-09T09:43:42Z) - Evaluation of Temporal Change in IR Test Collections [3.4917392789760147]
本研究では,有効性評価の時間的一般化性について検討する。
提案手法は,検索結果の変化を適切に記述できることを示す。
論文 参考訳(メタデータ) (2024-07-01T15:25:31Z) - Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Decoy Effect In Search Interaction: Understanding User Behavior and Measuring System Vulnerability [33.78769577114657]
本研究は,検索エンジンの検索結果ページ上でのユーザインタラクションの変化について検討した。
DEJA-VUメトリクスを導入し、デコイ効果に対するシステムの感受性を評価する。
その結果,システムの有効性と脆弱性に違いが認められた。
論文 参考訳(メタデータ) (2024-03-27T11:20:48Z) - Early Period of Training Impacts Out-of-Distribution Generalization [56.283944756315066]
ニューラルネットワークトレーニングの初期における学習力学とOOD一般化の関係について検討した。
トレーニング中に異なる時間にトレーニング可能なパラメータ数を選択することは、ID結果に極端に影響を及ぼすことを示す。
訓練初期におけるシャープネスの絶対値とフィッシャー情報の痕跡は,OOD一般化の指標にはならない。
論文 参考訳(メタデータ) (2024-03-22T13:52:53Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - How Far Should We Look Back to Achieve Effective Real-Time Time-Series
Anomaly Detection? [1.0437764544103274]
異常検出は、予期せぬ事象やデータの異常を識別するプロセスである。
RePAD (Real-time Proactive Anomaly Detection algorithm) は上記の全ての特徴を持つ一般的な手法である。
歴史的データポイントの差がRePADの性能に与える影響は明らかでない。
論文 参考訳(メタデータ) (2021-02-12T14:51:05Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。