論文の概要: Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution
- arxiv url: http://arxiv.org/abs/2405.05705v1
- Date: Thu, 9 May 2024 12:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:32:48.045460
- Title: Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution
- Title(参考訳): テキスト中のステートメントを検出する:ドメインに依存しないFew-Shotソリューション
- Authors: Sandrine Chausson, Björn Ross,
- Abstract要約: 最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many tasks related to Computational Social Science and Web Content Analysis involve classifying pieces of text based on the claims they contain. State-of-the-art approaches usually involve fine-tuning models on large annotated datasets, which are costly to produce. In light of this, we propose and release a qualitative and versatile few-shot learning methodology as a common paradigm for any claim-based textual classification task. This methodology involves defining the classes as arbitrarily sophisticated taxonomies of claims, and using Natural Language Inference models to obtain the textual entailment between these and a corpus of interest. The performance of these models is then boosted by annotating a minimal sample of data points, dynamically sampled using the well-established statistical heuristic of Probabilistic Bisection. We illustrate this methodology in the context of three tasks: climate change contrarianism detection, topic/stance classification and depression-relates symptoms detection. This approach rivals traditional pre-train/fine-tune approaches while drastically reducing the need for data annotation.
- Abstract(参考訳): 計算社会科学とWebコンテンツ分析に関連する多くのタスクは、それらが持つ主張に基づいてテキストを分類することである。
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
そこで本稿では,クレームベーステキスト分類タスクの共通パラダイムとして,定性的で多目的な複数ショット学習手法の提案とリリースを行う。
この方法論は、クラスをクレームの任意に洗練された分類体系として定義し、自然言語推論モデルを用いてこれらと関心のコーパスの間のテキスト的関係を得る。
これらのモデルの性能は最小限のデータ点のサンプルをアノテートすることで向上し、確率的二項の統計的ヒューリスティックを用いて動的にサンプリングされる。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
このアプローチは、従来のプリトレイン/ファインチューンアプローチに匹敵する一方で、データアノテーションの必要性を大幅に削減する。
関連論文リスト
- Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Unsupervised Domain Adaptation in Semantic Segmentation: a Review [22.366638308792734]
本研究の目的は, セマンティックセグメンテーションのための深層ネットワークのUnsupervised Domain Adaptation (UDA) の最近の進歩について概説することである。
論文 参考訳(メタデータ) (2020-05-21T20:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。