論文の概要: Evaluation of Temporal Change in IR Test Collections
- arxiv url: http://arxiv.org/abs/2407.01373v1
- Date: Mon, 01 Jul 2024 15:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 20:44:04.861180
- Title: Evaluation of Temporal Change in IR Test Collections
- Title(参考訳): IRテストコレクションの経時的変化の評価
- Authors: Jüri Keller, Timo Breuer, Philipp Schaer,
- Abstract要約: 本研究では,有効性評価の時間的一般化性について検討する。
提案手法は,検索結果の変化を適切に記述できることを示す。
- 参考スコア(独自算出の注目度): 3.4917392789760147
- License:
- Abstract: Information retrieval systems have been evaluated using the Cranfield paradigm for many years. This paradigm allows a systematic, fair, and reproducible evaluation of different retrieval methods in fixed experimental environments. However, real-world retrieval systems must cope with dynamic environments and temporal changes that affect the document collection, topical trends, and the individual user's perception of what is considered relevant. Yet, the temporal dimension in IR evaluations is still understudied. To this end, this work investigates how the temporal generalizability of effectiveness evaluations can be assessed. As a conceptual model, we generalize Cranfield-type experiments to the temporal context by classifying the change in the essential components according to the create, update, and delete operations of persistent storage known from CRUD. From the different types of change different evaluation scenarios are derived and it is outlined what they imply. Based on these scenarios, renowned state-of-the-art retrieval systems are tested and it is investigated how the retrieval effectiveness changes on different levels of granularity. We show that the proposed measures can be well adapted to describe the changes in the retrieval results. The experiments conducted confirm that the retrieval effectiveness strongly depends on the evaluation scenario investigated. We find that not only the average retrieval performance of single systems but also the relative system performance are strongly affected by the components that change and to what extent these components changed.
- Abstract(参考訳): 情報検索システムは長年にわたってクランフィールドパラダイムを用いて評価されてきた。
このパラダイムは、固定された実験環境で異なる検索方法の体系的、公平で再現可能な評価を可能にする。
しかし,実世界の検索システムは,文書収集や話題の傾向,利用者の関連するものに対する認識に影響を及ぼす動的環境や時間的変化に対処しなければならない。
しかし、IR評価における時間次元はまだ検討されていない。
そこで本研究では,有効性評価の時間的一般化性について検討する。
概念モデルとして、我々はCranfield型実験を時間的文脈に一般化し、CRUDから知られている永続ストレージの操作の生成、更新、削除に基づいて必須コンポーネントの変更を分類する。
異なるタイプの変更から、異なる評価シナリオが導き出され、それらが意味するものを概説する。
これらのシナリオに基づいて、最先端の検索システムがテストされ、検索の有効性が粒度の異なるレベルでどのように変化するかを調査した。
提案手法は,検索結果の変化を適切に記述できることを示す。
実験により, 検索の有効性が評価シナリオに強く依存していることが確認された。
その結果,個々のシステムの平均検索性能だけでなく,システムの性能も変化の度合いや変化の度合いに強く影響されていることがわかった。
関連論文リスト
- CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - Exploring Information Retrieval Landscapes: An Investigation of a Novel Evaluation Techniques and Comparative Document Splitting Methods [0.0]
本研究では, 教科書の構造的性質, 記事の簡潔さ, 小説の物語的複雑さについて, 明確な検索戦略が必要であることを示した。
オープンソースのモデルを用いて,質問対と回答対の包括的データセットを生成する新しい評価手法を提案する。
評価には、SequenceMatcher、BLEU、METEOR、BERT Scoreなどの重み付けされたスコアを使用して、システムの正確性と妥当性を評価する。
論文 参考訳(メタデータ) (2024-09-13T02:08:47Z) - Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments [67.80453452949303]
観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。
ここでは、観測データが複数の環境からやってくる広範囲な環境に焦点を当てる。
任意の機械学習モデルと組み合わせて使用可能な境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:31:43Z) - Process Variant Analysis Across Continuous Features: A Novel Framework [0.0]
本研究は, 業務プロセスにおけるケースの効果的セグメンテーションの課題に対処する。
本研究では,スライディングウインドウ手法と地球移動器の距離を併用して制御流の挙動変化を検出する手法を提案する。
オランダの保険会社UWVと共同で実生活事例研究を行い,その方法論を検証した。
論文 参考訳(メタデータ) (2024-05-06T16:10:13Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Causal Message Passing for Experiments with Unknown and General Network Interference [5.294604210205507]
複雑で未知のネットワーク干渉に対応する新しいフレームワークを提案する。
我々のフレームワークは因果的メッセージパッシングと呼ばれ、高次元近似的メッセージパッシング手法に基づいている。
本手法の有効性を5つの数値シナリオで示す。
論文 参考訳(メタデータ) (2023-11-14T17:31:50Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Fairness and underspecification in acoustic scene classification: The
case for disaggregated evaluations [6.186191586944725]
機械学習(ML)アプリケーションにおける不明瞭さと公平さは、最近、MLコミュニティで2つの顕著な問題となっている。
本研究では,アコースティックシーン分類(ASC)モデルに対して,非凝集評価によるより包括的な評価プロセスの必要性を論じる。
本研究では,2つの広く使用されているASCデータセットを用いたトレーニングにおいて,不特定性や公平性の問題を明らかにする上で,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-10-04T15:23:01Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。