Fugu-MT 論文翻訳(概要): Four Shades of Life Sciences: A Dataset for Disinformation Detection in the Life Sciences

論文の概要: Four Shades of Life Sciences: A Dataset for Disinformation Detection in the Life Sciences

arxiv url: http://arxiv.org/abs/2507.03488v1
Date: Fri, 04 Jul 2025 11:28:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.752209
Title: Four Shades of Life Sciences: A Dataset for Disinformation Detection in the Life Sciences
Title（参考訳）: 生命科学の4つの影:生命科学における偽情報検出のためのデータセット
Authors: Eva Seidlmayer, Lukas Galke, Konrad U. Förstner,
Abstract要約: 偽情報の識別者は、しばしば注意を引き付け、感情を喚起する。我々は,不定形テキストを識別するためのプロキシとして,言語的特徴と修辞的特徴を探求する。 14のライフサイエンストピックに関する2,603のテキストのコーパスをラベル付けした小説『Four Shades of Life Sciences』を紹介します。
参考スコア（独自算出の注目度）: 3.686808512438363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Disseminators of disinformation often seek to attract attention or evoke emotions - typically to gain influence or generate revenue - resulting in distinctive rhetorical patterns that can be exploited by machine learning models. In this study, we explore linguistic and rhetorical features as proxies for distinguishing disinformative texts from other health and life-science text genres, applying both large language models and classical machine learning classifiers. Given the limitations of existing datasets, which mainly focus on fact checking misinformation, we introduce Four Shades of Life Sciences (FSoLS): a novel, labeled corpus of 2,603 texts on 14 life-science topics, retrieved from 17 diverse sources and classified into four categories of life science publications. The source code for replicating, and updating the dataset is available on GitHub: https://github.com/EvaSeidlmayer/FourShadesofLifeSciences
Abstract（参考訳）: 偽情報の識別者は、しばしば注意を引き付け、感情を呼び起こそうとします。通常、影響を得るか、収益を生み出すためです。本研究では, 言語モデルと古典的機械学習分類器の両方を応用し, 異形テキストを他の健康・生命科学のテキストジャンルと区別するためのプロキシとして, 言語的・修辞的特徴を探求する。ファクトチェックの誤情報を中心にした既存のデータセットの限界を考慮し、14のライフサイエンストピックに関する2,603のコーパスをラベル付けし、17の多様なソースから抽出し、ライフサイエンス出版物の4つのカテゴリに分類した、小説『Four Shades of Life Sciences』(FSoLS)を紹介する。データセットの複製と更新のためのソースコードはGitHubで入手できる。

関連論文リスト

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。 i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文参考訳（メタデータ） (2025-09-25T17:52:06Z)
Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文参考訳（メタデータ） (2024-08-20T10:45:36Z)
SPACE-IDEAS: A Dataset for Salient Information Detection in Space Innovation [0.3017070810884304]
本研究では,空間領域に関連するイノベーションのアイデアから情報を検出するためのデータセットであるSPACE-IDEASを紹介する。 SPACE-IDEASのテキストは大きく異なり、非公式、技術的、学術的、ビジネス指向の書き込みスタイルを含んでいる。手動でアノテートしたデータセットに加えて、大きな生成言語モデルを使ってアノテートされた拡張バージョンをリリースします。
論文参考訳（メタデータ） (2024-03-25T17:04:02Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
Short text classification with machine learning in the social sciences: The case of climate change on Twitter [0.0]
教師あり機械学習手法は最先端のレキシコンよりも優れていることを示す。ロジスティック回帰やランダムフォレストのような伝統的な機械学習手法は、洗練されたディープラーニング手法と同様に機能する。
論文参考訳（メタデータ） (2023-10-03T22:09:43Z)
CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。 CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文参考訳（メタデータ） (2022-12-19T16:10:56Z)
Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。単言語,多言語,言語横断の3種類の実験を行った。本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文参考訳（メタデータ） (2022-04-19T16:23:07Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。 2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文参考訳（メタデータ） (2020-11-01T04:04:43Z)
A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文参考訳（メタデータ） (2020-10-09T06:46:46Z)
Russian Natural Language Generation: Creation of a Language Modelling Dataset and Evaluation with Modern Neural Architectures [0.0]
ロシア語モデリングのための新しい参照データセットを提供する。我々は、テキスト生成、すなわち変分オートエンコーダ、および生成的敵ネットワークのための一般的なモダンな手法を実験した。我々は, 難易度, 文法的正しさ, 語彙的多様性などの指標について, 生成したテキストを評価する。
論文参考訳（メタデータ） (2020-05-05T20:20:25Z)
Fake News Detection on News-Oriented Heterogeneous Information Networks through Hierarchical Graph Attention [12.250335118888891]
階層型グラフ注意ネットワーク(HGAT)という,新たなフェイクニュース検出フレームワークを提案する。 HGATは、新しい階層的な注意機構を使用して、HINでノード表現学習を行い、ニュース記事ノードを分類することでフェイクニュースを検出する。 2つの実世界のフェイクニュースデータセットの実験は、HGATがテキストベースのモデルや他のネットワークベースのモデルより優れていることを示している。
論文参考訳（メタデータ） (2020-02-05T19:09:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。