論文の概要: Stance in Replies and Quotes (SRQ): A New Dataset For Learning Stance in
Twitter Conversations
- arxiv url: http://arxiv.org/abs/2006.00691v2
- Date: Sat, 27 Jun 2020 21:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 05:55:00.846553
- Title: Stance in Replies and Quotes (SRQ): A New Dataset For Learning Stance in
Twitter Conversations
- Title(参考訳): stance in replies and quotes (srq): twitter会話におけるスタンス学習のための新しいデータセット
- Authors: Ramon Villa-Cox, Sumeet Kumar, Matthew Babcock, Kathleen M. Carley
- Abstract要約: 我々は5200以上のスタンスラベルを持つTwitter会話のための人間ラベル付きスタンスデータセットを提示する。
会話の姿勢を学習し、様々なモデルのパフォーマンスを比較するためのベースラインモデルが多数含まれています。
- 参考スコア(独自算出の注目度): 8.097870074875729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated ways to extract stance (denying vs. supporting opinions) from
conversations on social media are essential to advance opinion mining research.
Recently, there is a renewed excitement in the field as we see new models
attempting to improve the state-of-the-art. However, for training and
evaluating the models, the datasets used are often small. Additionally, these
small datasets have uneven class distributions, i.e., only a tiny fraction of
the examples in the dataset have favoring or denying stances, and most other
examples have no clear stance. Moreover, the existing datasets do not
distinguish between the different types of conversations on social media (e.g.,
replying vs. quoting on Twitter). Because of this, models trained on one event
do not generalize to other events.
In the presented work, we create a new dataset by labeling stance in
responses to posts on Twitter (both replies and quotes) on controversial
issues. To the best of our knowledge, this is currently the largest
human-labeled stance dataset for Twitter conversations with over 5200 stance
labels. More importantly, we designed a tweet collection methodology that
favors the selection of denial-type responses. This class is expected to be
more useful in the identification of rumors and determining antagonistic
relationships between users. Moreover, we include many baseline models for
learning the stance in conversations and compare the performance of various
models. We show that combining data from replies and quotes decreases the
accuracy of models indicating that the two modalities behave differently when
it comes to stance learning.
- Abstract(参考訳): ソーシャルメディア上での会話からスタンス(否定対支持意見)を自動的に抽出する方法は、意見マイニング研究を進める上で不可欠である。
近年,最先端技術の改善を目指す新しいモデルが登場し,この分野に新たな興奮が高まっている。
しかし、モデルのトレーニングと評価には、使用されるデータセットが小さいことが多い。
さらに、これらの小さなデータセットは、不均一なクラス分布を持ち、すなわち、データセットの少数の例だけがスタンスを好んだり否定したりしており、他のほとんどの例は明確なスタンスを持っていない。
さらに、既存のデータセットは、ソーシャルメディア上のさまざまなタイプの会話(例えば、Twitterでの返信と引用)を区別しない。
このため、あるイベントでトレーニングされたモデルは、他のイベントに一般化されない。
提案する研究では,議論の多い問題に対するtwitter投稿(回答と引用の両方)に対する反応にスタンスをラベル付けすることで,新たなデータセットを作成する。
私たちの知る限り、これは現在5200以上のスタンスラベルを持つTwitter会話のための人間ラベル付きスタンスデータセットで最大のものだ。
さらに重要なことは、否定型応答の選択を好むツイート収集手法を設計したことである。
このクラスは、噂の特定やユーザー間の敵対関係の決定においてより有用であると期待されている。
さらに,会話の姿勢を学習し,様々なモデルの性能を比較するためのベースラインモデルも多数含んでいる。
姿勢学習に関して,回答と引用のデータを組み合わせることで,2つのモダリティが異なる振舞いを示すモデルの精度が低下することを示す。
関連論文リスト
- Multi-Class and Automated Tweet Categorization [0.0]
この研究は、ツイートのカテゴリーをテキストから検出することを目的としている。
ツイートは、テキストマイニングまたは自然言語処理(NLP)と機械学習(ML)技術を使用して、12の特定カテゴリに分類される。
最高のアンサンブルモデルであるグラディエント・ブースティングはAUCのスコアが85%に達した。
論文 参考訳(メタデータ) (2021-11-13T14:28:47Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z) - A Weakly Supervised Approach for Classifying Stance in Twitter Replies [11.139350549173953]
オンライン会話では敵の反応が一般的である。
これらの不利な見解(あるいは姿勢)を返信文から推測することは困難である。
我々は,twitter応答におけるスタンスを予測するための弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2021-03-12T06:02:45Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - TIMME: Twitter Ideology-detection via Multi-task Multi-relational
Embedding [26.074367752142198]
我々は、人々のイデオロギーや政治的傾向を予測する問題を解決することを目的としている。
我々は、Twitterデータを用いてそれを推定し、分類問題として定式化する。
論文 参考訳(メタデータ) (2020-06-02T00:00:39Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。