論文の概要: SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse
- arxiv url: http://arxiv.org/abs/2206.07360v2
- Date: Wed, 6 Jul 2022 11:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 17:46:30.274496
- Title: SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse
- Title(参考訳): SciTweets -- 科学的オンライン談話を検出するためのデータセットとアノテーションフレームワーク
- Authors: Salim Hafid, Sebastian Schellhammer, Sandra Bringay, Konstantin
Todorov, Stefan Dietze
- Abstract要約: 科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。
これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。
専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
- 参考スコア(独自算出の注目度): 2.3371548697609303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific topics, claims and resources are increasingly debated as part of
online discourse, where prominent examples include discourse related to
COVID-19 or climate change. This has led to both significant societal impact
and increased interest in scientific online discourse from various disciplines.
For instance, communication studies aim at a deeper understanding of biases,
quality or spreading pattern of scientific information whereas computational
methods have been proposed to extract, classify or verify scientific claims
using NLP and IR techniques. However, research across disciplines currently
suffers from both a lack of robust definitions of the various forms of
science-relatedness as well as appropriate ground truth data for distinguishing
them. In this work, we contribute (a) an annotation framework and corresponding
definitions for different forms of scientific relatedness of online discourse
in Tweets, (b) an expert-annotated dataset of 1261 tweets obtained through our
labeling framework reaching an average Fleiss Kappa $\kappa$ of 0.63, (c) a
multi-label classifier trained on our data able to detect science-relatedness
with 89% F1 and also able to detect distinct forms of scientific knowledge
(claims, references). With this work we aim to lay the foundation for
developing and evaluating robust methods for analysing science as part of
large-scale online discourse.
- Abstract(参考訳): 科学的な話題や主張、資源は、新型コロナウイルスや気候変動に関する談話を含むオンライン談話の一部として、ますます議論されている。
このことが社会に大きな影響を与え、様々な分野から科学的なオンライン談話への関心を高めた。
例えば、コミュニケーション研究は科学的情報のバイアス、品質、拡散パターンをより深く理解することを目的としている一方、計算手法はNLPとIR技術を用いて科学的クレームを抽出、分類、検証するために提案されている。
しかし、様々な分野にわたる研究は、科学に関する様々な形態の堅牢な定義の欠如と、それらを区別するための適切な根拠真理データの両方に悩まされている。
この作品で、私たちは貢献します
(a) つぶやきにおけるオンライン談話の科学的関連性の異なる形態に関するアノテーションの枠組み及び対応する定義
b)ラベリングフレームワークによって得られた1261ツイートのエキスパート注釈データセットは、平均的なfleiss kappa $\kappa$ (0.63) に達する。
c) 89%のf1で科学関連性を検出でき、また異なる形態の科学知識(請求書、参考書)を検出できるデータに基づいて訓練されたマルチラベル分類器。
この研究により,大規模オンライン談話の一環として,科学分析のためのロバストな手法の開発と評価の基礎を築くことを目指している。
関連論文リスト
- A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - How Data Scientists Review the Scholarly Literature [4.406926847270567]
データサイエンティストの文献レビューの実践について検討する。
データサイエンスは、論文の指数的な増加を示す分野である。
これらの科学者が直面する具体的な実践や課題について、事前の研究は行われていない。
論文 参考訳(メタデータ) (2023-01-10T03:53:05Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - SciLander: Mapping the Scientific News Landscape [8.504643390943409]
本稿では,SciLanderについて紹介する。SciLanderは,科学に基づくトピックに関するニュースソースの表現を学習する手法である。
我々は,2020年のパンデミック開始から18ヶ月の期間にわたって,500件の情報源から100万件近いニュース記事を含む,新たな新型コロナウイルスデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-05-16T20:20:43Z) - Measuring Disagreement in Science [0.0]
我々はcue-phraseに基づくアプローチを用いて、400万以上の科学論文にまたがる不一致の引用の事例を特定する。
我々は、社会科学における意見の相違と、物理学と数学における意見の相違について、学際的な意見の相違を明らかにした。
論文 参考訳(メタデータ) (2021-07-30T14:07:34Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Semantic maps and metrics for science Semantic maps and metrics for
science using deep transformer encoders [1.599072005190786]
ディープトランスフォーマーネットワークによる自然言語理解の最近の進歩は、マッピング科学に新たな可能性をもたらす。
トランスフォーマー埋め込みモデルは、異なる言語文脈で異なる関連と意味の陰を捉えます。
本稿では,これらのツールを用いて学術文書を符号化する手法について報告する。
論文 参考訳(メタデータ) (2021-04-13T04:12:20Z) - Extracting a Knowledge Base of Mechanisms from COVID-19 Papers [50.17242035034729]
我々はメカニズムの知識ベース(KB)の構築を追求する。
我々は、妥当性と幅のバランスをとる広範で統一されたスキーマを開発する。
実験は、新型コロナウイルスの文献に関する学際的な科学的検索を支援するためのKBの有用性を実証する。
論文 参考訳(メタデータ) (2020-10-08T07:54:14Z) - Fact or Fiction: Verifying Scientific Claims [53.29101835904273]
本稿では,研究文献から,REFUTESやREFUTESが与えられた科学的主張であることを示す証拠を含む抄録を抽出する新たな課題である,科学的クレーム検証を紹介する。
SciFactは、1.4Kの専門家による科学的主張と、ラベルや合理性に注釈を付けたエビデンスを含む抽象概念を組み合わせたデータセットである。
このシステムは,CORD-19コーパスの証拠を同定することにより,新型コロナウイルス関連クレームを検証可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T17:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。