論文の概要: Four Shades of Life Sciences: A Dataset for Disinformation Detection in the Life Sciences
- arxiv url: http://arxiv.org/abs/2507.03488v1
- Date: Fri, 04 Jul 2025 11:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.752209
- Title: Four Shades of Life Sciences: A Dataset for Disinformation Detection in the Life Sciences
- Title(参考訳): 生命科学の4つの影:生命科学における偽情報検出のためのデータセット
- Authors: Eva Seidlmayer, Lukas Galke, Konrad U. Förstner,
- Abstract要約: 偽情報の識別者は、しばしば注意を引き付け、感情を喚起する。
我々は,不定形テキストを識別するためのプロキシとして,言語的特徴と修辞的特徴を探求する。
14のライフサイエンストピックに関する2,603のテキストのコーパスをラベル付けした小説『Four Shades of Life Sciences』を紹介します。
- 参考スコア(独自算出の注目度): 3.686808512438363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disseminators of disinformation often seek to attract attention or evoke emotions - typically to gain influence or generate revenue - resulting in distinctive rhetorical patterns that can be exploited by machine learning models. In this study, we explore linguistic and rhetorical features as proxies for distinguishing disinformative texts from other health and life-science text genres, applying both large language models and classical machine learning classifiers. Given the limitations of existing datasets, which mainly focus on fact checking misinformation, we introduce Four Shades of Life Sciences (FSoLS): a novel, labeled corpus of 2,603 texts on 14 life-science topics, retrieved from 17 diverse sources and classified into four categories of life science publications. The source code for replicating, and updating the dataset is available on GitHub: https://github.com/EvaSeidlmayer/FourShadesofLifeSciences
- Abstract(参考訳): 偽情報の識別者は、しばしば注意を引き付け、感情を呼び起こそうとします。通常、影響を得るか、収益を生み出すためです。
本研究では, 言語モデルと古典的機械学習分類器の両方を応用し, 異形テキストを他の健康・生命科学のテキストジャンルと区別するためのプロキシとして, 言語的・修辞的特徴を探求する。
ファクトチェックの誤情報を中心にした既存のデータセットの限界を考慮し、14のライフサイエンストピックに関する2,603のコーパスをラベル付けし、17の多様なソースから抽出し、ライフサイエンス出版物の4つのカテゴリに分類した、小説『Four Shades of Life Sciences』(FSoLS)を紹介する。
データセットの複製と更新のためのソースコードはGitHubで入手できる。
関連論文リスト
- Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文 参考訳(メタデータ) (2024-08-20T10:45:36Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Short text classification with machine learning in the social sciences:
The case of climate change on Twitter [0.0]
教師あり機械学習手法は最先端のレキシコンよりも優れていることを示す。
ロジスティック回帰やランダムフォレストのような伝統的な機械学習手法は、洗練されたディープラーニング手法と同様に機能する。
論文 参考訳(メタデータ) (2023-10-03T22:09:43Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z) - Russian Natural Language Generation: Creation of a Language Modelling
Dataset and Evaluation with Modern Neural Architectures [0.0]
ロシア語モデリングのための新しい参照データセットを提供する。
我々は、テキスト生成、すなわち変分オートエンコーダ、および生成的敵ネットワークのための一般的なモダンな手法を実験した。
我々は, 難易度, 文法的正しさ, 語彙的多様性などの指標について, 生成したテキストを評価する。
論文 参考訳(メタデータ) (2020-05-05T20:20:25Z) - Fake News Detection on News-Oriented Heterogeneous Information Networks
through Hierarchical Graph Attention [12.250335118888891]
階層型グラフ注意ネットワーク(HGAT)という,新たなフェイクニュース検出フレームワークを提案する。
HGATは、新しい階層的な注意機構を使用して、HINでノード表現学習を行い、ニュース記事ノードを分類することでフェイクニュースを検出する。
2つの実世界のフェイクニュースデータセットの実験は、HGATがテキストベースのモデルや他のネットワークベースのモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-02-05T19:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。