論文の概要: Zero-Shot Ranking Socio-Political Texts with Transformer Language Models
to Reduce Close Reading Time
- arxiv url: http://arxiv.org/abs/2210.09179v1
- Date: Mon, 17 Oct 2022 15:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:04:11.101677
- Title: Zero-Shot Ranking Socio-Political Texts with Transformer Language Models
to Reduce Close Reading Time
- Title(参考訳): 近読時間を短縮するトランスフォーマー言語モデルを用いたゼロショット分類社会政治テキスト
- Authors: Kiymet Akdemir and Ali H\"urriyeto\u{g}lu
- Abstract要約: 我々は、Transformer Language Modelsを使用して、詳細確率を取得し、異なるタイプのクエリを調べる。
ランキング文書の一定割合を取ることで、クローズドリーディング時間を短縮できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We approach the classification problem as an entailment problem and apply
zero-shot ranking to socio-political texts. Documents that are ranked at the
top can be considered positively classified documents and this reduces the
close reading time for the information extraction process. We use Transformer
Language Models to get the entailment probabilities and investigate different
types of queries. We find that DeBERTa achieves higher mean average precision
scores than RoBERTa and when declarative form of the class label is used as a
query, it outperforms dictionary definition of the class label. We show that
one can reduce the close reading time by taking some percentage of the ranked
documents that the percentage depends on how much recall they want to achieve.
However, our findings also show that percentage of the documents that should be
read increases as the topic gets broader.
- Abstract(参考訳): 分類問題を包含問題としてアプローチし、ゼロショットランキングを社会政治テキストに適用する。
上位にランク付けされた文書は肯定的に分類された文書と見なすことができ、情報抽出プロセスの精読時間を短縮できる。
我々はTransformer Language Models を用いて、細分化確率を取得し、異なるタイプのクエリを調べる。
DeBERTaはRoBERTaよりも平均精度の高いスコアを達成でき、クラスラベルの宣言形式をクエリとして使用すると、クラスラベルの辞書定義よりも優れる。
我々は, どれだけのリコールをしたいかによって, ランク付けされた文書の一定割合を取ることで, 密読時間を短縮できることを示す。
しかし,本研究の結果は,話題が広まるにつれて読まれるべき文書の割合が増加することを示している。
関連論文リスト
- Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Contextual Biasing of Named-Entities with Large Language Models [12.396054621526643]
本稿では,Large Language Models (LLM) を用いた文脈バイアスについて検討する。
LLMに追加のコンテキスト情報を提供して、自動音声認識(ASR)性能を向上する。
本稿では, バイアスリストと少数ショット例を組み込んだ再描画時に, 微調整を行なわずに, LLMのプロンプトを活用することを提案する。
論文 参考訳(メタデータ) (2023-09-01T20:15:48Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - None Class Ranking Loss for Document-Level Relation Extraction [22.173080823450498]
文書レベルの関係抽出(RE)は、複数の文にまたがって表現されるエンティティ間の関係を抽出することを目的としている。
典型的な文書では、ほとんどのエンティティペアは事前定義された関係を表現せず、"noone"あるいは"no relation"とラベル付けされている。
論文 参考訳(メタデータ) (2022-05-01T14:24:37Z) - Improving Probabilistic Models in Text Classification via Active
Learning [0.0]
本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
論文 参考訳(メタデータ) (2022-02-05T20:09:26Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Fine-Grained Relevance Annotations for Multi-Task Document Ranking and
Question Answering [9.480648914353035]
本稿では,Fine-Grained Relevancesの新たなデータセットであるFiRAを紹介する。
TREC 2019のディープ・ラーニング・トラックのランク付けされた検索アノテーションは、すべての関連文書のパスレベルとワードグレードの関連アノテーションで拡張する。
例えば、最近導入されたTKL文書ランキングモデルを評価し、TKLは長い文書に対して最先端の検索結果を示すが、多くの関連項目を見逃している。
論文 参考訳(メタデータ) (2020-08-12T14:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。