論文の概要: A Comparison of Approaches for Imbalanced Classification Problems in the
Context of Retrieving Relevant Documents for an Analysis
- arxiv url: http://arxiv.org/abs/2205.01600v1
- Date: Tue, 3 May 2022 16:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:44:12.376454
- Title: A Comparison of Approaches for Imbalanced Classification Problems in the
Context of Retrieving Relevant Documents for an Analysis
- Title(参考訳): 分析のための関連文書検索の文脈における不均衡分類問題に対するアプローチの比較
- Authors: Sandra Wankm\"uller
- Abstract要約: 本研究は,クエリ拡張手法,トピックモデルに基づく分類規則,能動的および受動的教師あり学習を比較した。
その結果、ほとんどの研究環境におけるクエリ拡張手法とトピックモデルに基づく分類規則は、検索性能を向上するよりも低下する傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the first steps in many text-based social science studies is to
retrieve documents that are relevant for the analysis from large corpora of
otherwise irrelevant documents. The conventional approach in social science to
address this retrieval task is to apply a set of keywords and to consider those
documents to be relevant that contain at least one of the keywords. But the
application of incomplete keyword lists risks drawing biased inferences. More
complex and costly methods such as query expansion techniques, topic
model-based classification rules, and active as well as passive supervised
learning could have the potential to more accurately separate relevant from
irrelevant documents and thereby reduce the potential size of bias. Yet,
whether applying these more expensive approaches increases retrieval
performance compared to keyword lists at all, and if so, by how much, is
unclear as a comparison of these approaches is lacking. This study closes this
gap by comparing these methods across three retrieval tasks associated with a
data set of German tweets (Linder, 2017), the Social Bias Inference Corpus
(SBIC) (Sap et al., 2020), and the Reuters-21578 corpus (Lewis, 1997). Results
show that query expansion techniques and topic model-based classification rules
in most studied settings tend to decrease rather than increase retrieval
performance. Active supervised learning, however, if applied on a not too small
set of labeled training instances (e.g. 1,000 documents), reaches a
substantially higher retrieval performance than keyword lists.
- Abstract(参考訳): 多くのテキストベースの社会科学研究における最初のステップの1つは、無関係な文書の大きなコーパスから分析に関連する文書を回収することである。
この検索課題に対処する社会科学の従来のアプローチは、キーワードの集合を適用し、それらの文書が少なくとも1つのキーワードを含む関連性のあるものと考えることである。
しかし、不完全キーワードの応用はバイアス付き推論のリスクを列挙している。
クエリ拡張手法、トピックモデルに基づく分類規則、アクティブおよび受動的教師付き学習といった、より複雑でコストのかかる手法は、無関係な文書から関連するものをより正確に分離し、バイアスの潜在的なサイズを減らす可能性を秘めている。
しかし、これらの高価なアプローチを適用するとキーワードリストと比較して検索性能が向上し、また、これらのアプローチの比較が不足しているため、どの程度で明らかでない場合も少なくない。
本研究は,ドイツのツイートのデータセット(linder, 2017),sbic(sap et al., 2020),reuters-21578コーパス(lewis, 1997)に関連する3つの検索タスクでこれらの方法を比較することで,このギャップを解消する。
その結果,検索性能の向上よりもクエリ拡張手法やトピックモデルに基づく分類規則が減少する傾向がみられた。
しかし、アクティブ教師付き学習がラベル付きトレーニングインスタンス(例えば1000文書)のセットにあまり当てはまらない場合、キーワードリストよりもはるかに高い検索性能に達する。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。