論文の概要: SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse
- arxiv url: http://arxiv.org/abs/2206.07360v1
- Date: Wed, 15 Jun 2022 08:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 04:01:50.286237
- Title: SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse
- Title(参考訳): SciTweets -- 科学的オンライン談話を検出するためのデータセットとアノテーションフレームワーク
- Authors: Salim Hafid, Sebastian Schellhammer, Sandra Bringay, Konstantin
Todorov, Stefan Dietze
- Abstract要約: 科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。
これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。
専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
- 参考スコア(独自算出の注目度): 2.3371548697609303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific topics, claims and resources are increasingly debated as part of
online discourse, where prominent examples include discourse related to
COVID-19 or climate change. This has led to both significant societal impact
and increased interest in scientific online discourse from various disciplines.
For instance, communication studies aim at a deeper understanding of biases,
quality or spreading pattern of scientific information whereas computational
methods have been proposed to extract, classify or verify scientific claims
using NLP and IR techniques. However, research across disciplines currently
suffers from both a lack of robust definitions of the various forms of
science-relatedness as well as appropriate ground truth data for distinguishing
them. In this work, we contribute (a) an annotation framework and corresponding
definitions for different forms of scientific relatedness of online discourse
in Tweets, (b) an expert-annotated dataset of 1261 tweets obtained through our
labeling framework reaching an average Fleiss Kappa $\kappa$ of 0.63, (c) a
multi-label classifier trained on our data able to detect science-relatedness
with 89% F1 and also able to detect distinct forms of scientific knowledge
(claims, references). With this work we aim to lay the foundation for
developing and evaluating robust methods for analysing science as part of
large-scale online discourse.
- Abstract(参考訳): 科学的な話題や主張、資源は、新型コロナウイルスや気候変動に関する談話を含むオンライン談話の一部として、ますます議論されている。
このことが社会に大きな影響を与え、様々な分野から科学的なオンライン談話への関心を高めた。
例えば、コミュニケーション研究は科学的情報のバイアス、品質、拡散パターンをより深く理解することを目的としている一方、計算手法はNLPとIR技術を用いて科学的クレームを抽出、分類、検証するために提案されている。
しかし、様々な分野にわたる研究は、科学に関する様々な形態の堅牢な定義の欠如と、それらを区別するための適切な根拠真理データの両方に悩まされている。
この作品で、私たちは貢献します
(a) つぶやきにおけるオンライン談話の科学的関連性の異なる形態に関するアノテーションの枠組み及び対応する定義
b)ラベリングフレームワークによって得られた1261ツイートのエキスパート注釈データセットは、平均的なfleiss kappa $\kappa$ (0.63) に達する。
c) 89%のf1で科学関連性を検出でき、また異なる形態の科学知識(請求書、参考書)を検出できるデータに基づいて訓練されたマルチラベル分類器。
この研究により,大規模オンライン談話の一環として,科学分析のためのロバストな手法の開発と評価の基礎を築くことを目指している。
関連論文リスト
- Detecting text level intellectual influence with knowledge graph embeddings [0.0]
オープンソースジャーナル記事のコーパスを収集し,Gemini LLMを用いて知識グラフ表現を生成する。
提案手法は,前述した手法とグラフニューラルネットワークを用いた新しい埋め込みモデルを用いて,サンプル対の論文間の引用の存在を予測しようとするものである。
論文 参考訳(メタデータ) (2024-10-31T15:21:27Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - How Data Scientists Review the Scholarly Literature [4.406926847270567]
データサイエンティストの文献レビューの実践について検討する。
データサイエンスは、論文の指数的な増加を示す分野である。
これらの科学者が直面する具体的な実践や課題について、事前の研究は行われていない。
論文 参考訳(メタデータ) (2023-01-10T03:53:05Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - SciLander: Mapping the Scientific News Landscape [8.504643390943409]
本稿では,SciLanderについて紹介する。SciLanderは,科学に基づくトピックに関するニュースソースの表現を学習する手法である。
我々は,2020年のパンデミック開始から18ヶ月の期間にわたって,500件の情報源から100万件近いニュース記事を含む,新たな新型コロナウイルスデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-05-16T20:20:43Z) - Measuring Disagreement in Science [0.0]
我々はcue-phraseに基づくアプローチを用いて、400万以上の科学論文にまたがる不一致の引用の事例を特定する。
我々は、社会科学における意見の相違と、物理学と数学における意見の相違について、学際的な意見の相違を明らかにした。
論文 参考訳(メタデータ) (2021-07-30T14:07:34Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Extracting a Knowledge Base of Mechanisms from COVID-19 Papers [50.17242035034729]
我々はメカニズムの知識ベース(KB)の構築を追求する。
我々は、妥当性と幅のバランスをとる広範で統一されたスキーマを開発する。
実験は、新型コロナウイルスの文献に関する学際的な科学的検索を支援するためのKBの有用性を実証する。
論文 参考訳(メタデータ) (2020-10-08T07:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。