論文の概要: Curating corpora with classifiers: A case study of clean energy
sentiment online
- arxiv url: http://arxiv.org/abs/2305.03092v2
- Date: Wed, 10 May 2023 02:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:12:05.183867
- Title: Curating corpora with classifiers: A case study of clean energy
sentiment online
- Title(参考訳): 分類器を用いたコーパスのキュレート:オンラインクリーンエネルギー感情の事例研究
- Authors: Michael V. Arnold, Peter Sheridan Dodds, Christopher M. Danforth
- Abstract要約: ソーシャルメディア投稿の大規模なコーパスには、幅広い世論が含まれている。
世論調査は、数日や数週間で実施し、世論を下ろすのに費用がかかる。
本稿では,解析用文書の最適コーパスを迅速に選択する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Well curated, large-scale corpora of social media posts containing broad
public opinion offer an alternative data source to complement traditional
surveys. While surveys are effective at collecting representative samples and
are capable of achieving high accuracy, they can be both expensive to run and
lag public opinion by days or weeks. Both of these drawbacks could be overcome
with a real-time, high volume data stream and fast analysis pipeline. A central
challenge in orchestrating such a data pipeline is devising an effective method
for rapidly selecting the best corpus of relevant documents for analysis.
Querying with keywords alone often includes irrelevant documents that are not
easily disambiguated with bag-of-words natural language processing methods.
Here, we explore methods of corpus curation to filter irrelevant tweets using
pre-trained transformer-based models, fine-tuned for our binary classification
task on hand-labeled tweets. We are able to achieve F1 scores of up to 0.95.
The low cost and high performance of fine-tuning such a model suggests that our
approach could be of broad benefit as a pre-processing step for social media
datasets with uncertain corpus boundaries.
- Abstract(参考訳): 広く世論を広めた大規模なソーシャルメディア投稿のコーパスは、従来の調査を補完する代替データソースを提供する。
調査は代表サンプルの収集に有効であり、高い精度を達成することができるが、数日ないし数週間で、実行や世論の遅れは高くつく。
これらの欠点は、リアルタイムで高ボリュームなデータストリームと高速な分析パイプラインで克服することができる。
このようなデータパイプラインを編成する上での課題は、分析のために関連ドキュメントの最高のコーパスを迅速に選択する効果的な方法を考案することである。
キーワードのみを問合せすると、バグ・オブ・ワードの自然言語処理手法と容易に区別できない無関係な文書がしばしば含まれる。
本稿では,手書きツイートの2進分類タスクを微調整したトランスフォーマーモデルを用いて,無関係なツイートをフィルタリングするコーパスキュレーション手法を検討する。
F1スコアは最大0.95まで達成できます。
このようなモデルの低コストで高性能な微調整は,コーパス境界が不明なソーシャルメディアデータセットの前処理ステップとして,幅広いメリットがある可能性が示唆されている。
関連論文リスト
- Are We Wasting Time? A Fast, Accurate Performance Evaluation Framework
for Knowledge Graph Link Predictors [4.31947784387967]
より大規模な知識グラフでは、ランク付けプロセスは急速に重くなります。
従来のアプローチでは、エンティティのランダムサンプリングを使用して、メソッドによって予測または提案されるリンクの品質を評価していた。
得られた評価基準が真の結果を適切に反映していないため,本手法には深刻な限界があることが示されている。
本稿では,リレーショナルリコメンデータを用いて候補の選択を誘導するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T15:44:46Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on
Social Media [53.51665032295087]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Perplexed by Quality: A Perplexity-based Method for Adult and Harmful
Content Detection in Multilingual Heterogeneous Web Data [0.0]
我々は多言語不均一なWebデータにおいて、成人と有害なコンテンツを検出する様々な方法を探究する。
我々は、成人および有害なテキストデータのみを訓練し、与えられたしきい値以上の難易度値の文書を選択する。
このアプローチは、文書を事実上2つの異なるグループにクラスタリングし、パープレキシティのしきい値の選択を大幅に促進します。
論文 参考訳(メタデータ) (2022-12-20T17:14:45Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - Towards A Reliable Ground-Truth For Biased Language Detection [3.2202224129197745]
バイアスを検出する既存の方法は、主に機械学習モデルをトレーニングするための注釈付きデータに依存している。
データ収集の選択肢を評価し、2つの人気のあるクラウドソーシングプラットフォームから得られたラベルを比較した。
より詳細なアノテータトレーニングによってデータ品質が向上し、既存のバイアス検出システムの性能が向上する。
論文 参考訳(メタデータ) (2021-12-14T14:13:05Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。