論文の概要: Curating corpora with classifiers: A case study of clean energy
sentiment online
- arxiv url: http://arxiv.org/abs/2305.03092v2
- Date: Wed, 10 May 2023 02:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:12:05.183867
- Title: Curating corpora with classifiers: A case study of clean energy
sentiment online
- Title(参考訳): 分類器を用いたコーパスのキュレート:オンラインクリーンエネルギー感情の事例研究
- Authors: Michael V. Arnold, Peter Sheridan Dodds, Christopher M. Danforth
- Abstract要約: ソーシャルメディア投稿の大規模なコーパスには、幅広い世論が含まれている。
世論調査は、数日や数週間で実施し、世論を下ろすのに費用がかかる。
本稿では,解析用文書の最適コーパスを迅速に選択する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Well curated, large-scale corpora of social media posts containing broad
public opinion offer an alternative data source to complement traditional
surveys. While surveys are effective at collecting representative samples and
are capable of achieving high accuracy, they can be both expensive to run and
lag public opinion by days or weeks. Both of these drawbacks could be overcome
with a real-time, high volume data stream and fast analysis pipeline. A central
challenge in orchestrating such a data pipeline is devising an effective method
for rapidly selecting the best corpus of relevant documents for analysis.
Querying with keywords alone often includes irrelevant documents that are not
easily disambiguated with bag-of-words natural language processing methods.
Here, we explore methods of corpus curation to filter irrelevant tweets using
pre-trained transformer-based models, fine-tuned for our binary classification
task on hand-labeled tweets. We are able to achieve F1 scores of up to 0.95.
The low cost and high performance of fine-tuning such a model suggests that our
approach could be of broad benefit as a pre-processing step for social media
datasets with uncertain corpus boundaries.
- Abstract(参考訳): 広く世論を広めた大規模なソーシャルメディア投稿のコーパスは、従来の調査を補完する代替データソースを提供する。
調査は代表サンプルの収集に有効であり、高い精度を達成することができるが、数日ないし数週間で、実行や世論の遅れは高くつく。
これらの欠点は、リアルタイムで高ボリュームなデータストリームと高速な分析パイプラインで克服することができる。
このようなデータパイプラインを編成する上での課題は、分析のために関連ドキュメントの最高のコーパスを迅速に選択する効果的な方法を考案することである。
キーワードのみを問合せすると、バグ・オブ・ワードの自然言語処理手法と容易に区別できない無関係な文書がしばしば含まれる。
本稿では,手書きツイートの2進分類タスクを微調整したトランスフォーマーモデルを用いて,無関係なツイートをフィルタリングするコーパスキュレーション手法を検討する。
F1スコアは最大0.95まで達成できます。
このようなモデルの低コストで高性能な微調整は,コーパス境界が不明なソーシャルメディアデータセットの前処理ステップとして,幅広いメリットがある可能性が示唆されている。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Neural Passage Quality Estimation for Static Pruning [23.662724916799004]
ニューラルネットワークが、ドキュメントのどのパスが、検索エンジンに送信されたクエリに関連しそうにないかを効果的に予測できるかどうかを検討する。
通過品質を推定する新しい手法により,通過コーパスを著しく刈り取ることが可能であることが判明した。
この研究は、より高度なニューラルな「学習とインデクシング」手法を開発するための段階を定めている。
論文 参考訳(メタデータ) (2024-07-16T20:47:54Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Perplexed by Quality: A Perplexity-based Method for Adult and Harmful
Content Detection in Multilingual Heterogeneous Web Data [0.0]
我々は多言語不均一なWebデータにおいて、成人と有害なコンテンツを検出する様々な方法を探究する。
我々は、成人および有害なテキストデータのみを訓練し、与えられたしきい値以上の難易度値の文書を選択する。
このアプローチは、文書を事実上2つの異なるグループにクラスタリングし、パープレキシティのしきい値の選択を大幅に促進します。
論文 参考訳(メタデータ) (2022-12-20T17:14:45Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。