論文の概要: Evaluating D-MERIT of Partial-annotation on Information Retrieval
- arxiv url: http://arxiv.org/abs/2406.16048v2
- Date: Sun, 13 Oct 2024 15:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 21:11:14.274541
- Title: Evaluating D-MERIT of Partial-annotation on Information Retrieval
- Title(参考訳): 情報検索における部分アノテーションのD-MERITの評価
- Authors: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg,
- Abstract要約: 検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
- 参考スコア(独自算出の注目度): 77.44452769932676
- License:
- Abstract: Retrieval models are often evaluated on partially-annotated datasets. Each query is mapped to a few relevant texts and the remaining corpus is assumed to be irrelevant. As a result, models that successfully retrieve false negatives are punished in evaluation. Unfortunately, completely annotating all texts for every query is not resource efficient. In this work, we show that using partially-annotated datasets in evaluation can paint a distorted picture. We curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to contain all relevant passages for each query. Queries describe a group (e.g., "journals about linguistics") and relevant passages are evidence that entities belong to the group (e.g., a passage indicating that "Language" is a journal about linguistics). We show that evaluating on a dataset containing annotations for only a subset of the relevant passages might result in misleading ranking of the retrieval systems and that as more relevant texts are included in the evaluation set, the rankings converge. We propose our dataset as a resource for evaluation and our study as a recommendation for balance between resource-efficiency and reliable evaluation when annotating evaluation sets for text retrieval.
- Abstract(参考訳): 検索モデルは部分的に注釈付けされたデータセットで評価されることが多い。
各クエリはいくつかの関連するテキストにマッピングされ、残りのコーパスは無関係であると仮定される。
その結果、偽陰性検索に成功したモデルは評価において処罰される。
残念ながら、すべてのクエリに対して全テキストに注釈を付けるのは、リソース効率が良くない。
本研究では、部分的に注釈付けされたデータセットを評価に用いることで、歪んだ絵を描くことができることを示す。
D-MERIT はウィキペディアから設定された経路検索評価であり,クエリ毎に関連する全てのパスを格納することを目的としている。
クエリーは、グループ(例えば「言語に関する日記」)を記述し、関連するパスは、エンティティがグループに属していることを示す証拠である(例えば、「言語に関する日記」は、言語に関するジャーナルであることを示す節)。
関連するパスのサブセットのみを含むアノテーションを含むデータセットで評価すると、検索システムのランキングが誤解を招く可能性があり、さらに関連するテキストが評価セットに含まれると、ランキングは収束する。
本研究は,テキスト検索における評価セットのアノテート時に,資源効率と信頼性評価のバランスをとるための提案として,評価用リソースとしてのデータセットを提案する。
関連論文リスト
- On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Podcast Summary Assessment: A Resource for Evaluating Summary Assessment
Methods [42.08097583183816]
本稿では,新たなデータセット,ポッドキャスト要約評価コーパスについて述べる。
このデータセットには、2つのユニークな側面がある: (i)ロングインプット、音声ポッドキャストベース、文書; (ii)ポッドキャストコーパスにおける不適切な参照要約を検出する機会。
論文 参考訳(メタデータ) (2022-08-28T18:24:41Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Reference and Document Aware Semantic Evaluation Methods for Korean
Language Summarization [6.826626737986031]
本稿では,参照要約と原文書の意味を反映した評価指標を提案する。
次に,人間の判断とメトリクスの相関性を改善する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T08:26:30Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。