Fugu-MT 論文翻訳(概要): SMAuC -- The Scientific Multi-Authorship Corpus

論文の概要: SMAuC -- The Scientific Multi-Authorship Corpus

arxiv url: http://arxiv.org/abs/2211.02477v1
Date: Fri, 4 Nov 2022 14:07:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 17:03:58.685899
Title: SMAuC -- The Scientific Multi-Authorship Corpus
Title（参考訳）: SMAuC - The Scientific Multi-Authorship Corpus
Authors: Philipp Sauer, Janek Bevendorff, Lukas Gienapp, Wolfgang Kircheis, Erik K\"orner, Benno Stein, Martin Potthast
Abstract要約: 論文執筆における著者分析のためのメタデータ豊富な新しいコーパスであるSMAuCについて述べる。様々な科学分野から300万冊以上の出版物があるSMAuCは、これまでで最大の著作者分析用コーパスである。
参考スコア（独自算出の注目度）: 32.77279821297011
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With an ever-growing number of new publications each day, scientific writing poses an interesting domain for authorship analysis of both single-author and multi-author documents. Unfortunately, most existing corpora lack either material from the science domain or the required metadata. Hence, we present SMAuC, a new metadata-rich corpus designed specifically for authorship analysis in scientific writing. With more than three million publications from various scientific disciplines, SMAuC is the largest openly available corpus for authorship analysis to date. It combines a wide and diverse range of scientific texts from the humanities and natural sciences with rich and curated metadata, including unique and carefully disambiguated author IDs. We hope SMAuC will contribute significantly to advancing the field of authorship analysis in the science domain.
Abstract（参考訳）: 毎日増え続ける新しい出版物によって、科学的な執筆は、シングル著者とマルチ著者の両方の文書の著者シップ分析の興味深い領域となっている。残念なことに、既存のコーパスのほとんどは科学領域の材料や必要なメタデータを欠いている。そこで,本稿ではsmaucについて述べる。smaucは論文執筆における著者シップ分析に特化した,メタデータに富むコーパスである。様々な科学分野から300万冊以上の出版物があるSMAuCは、これまでで最大の公開出版物である。人文科学や自然科学から多種多様な科学的テキストと、独特で不明瞭な著者IDを含む、豊富でキュレートされたメタデータを組み合わせる。我々はSMAuCが科学分野における著作者分析の分野に大きく貢献することを期待している。

関連論文リスト

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文参考訳（メタデータ） (2025-08-28T18:30:52Z)
SciTopic: Enhancing Topic Discovery in Scientific Literature through Advanced LLM [19.949137890090814]
本稿では,大規模言語モデル(LLM)によって強化された高度なトピック発見手法を提案する。具体的には、メタデータ、タイトル、要約を含む科学出版物からコンテンツをキャプチャするテキストエンコーダを構築する。次に,LLMによって導かれるエントロピーに基づくサンプリングと三重項タスクを統合した空間最適化モジュールを構築する。 3つの実世界のデータセットで実施された実験は、SciTopicが最先端(SOTA)の科学的トピック発見方法より優れていることを示した。
論文参考訳（メタデータ） (2025-08-28T07:55:06Z)
The Next Phase of Scientific Fact-Checking: Advanced Evidence Retrieval from Complex Structured Academic Papers [11.88478056313921]
この問題は、科学知識の進化する性質に適合しなければならないため、一般的な事実チェックよりも本質的に複雑である。既存のアプローチでは、抽象データからなる小規模データセットに基づいて、問題の簡易バージョンに重点を置いている。本稿では,現状の科学的ファクトチェックシステムの限界について検討し,その性能向上に活用できる潜在的な特徴と資源を明らかにする。
論文参考訳（メタデータ） (2025-06-25T21:29:33Z)
Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文参考訳（メタデータ） (2025-02-07T18:26:45Z)
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文参考訳（メタデータ） (2024-06-20T22:03:21Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文参考訳（メタデータ） (2024-06-10T15:19:09Z)
A Survey of Decomposition-Based Evolutionary Multi-Objective Optimization: Part II -- A Data Science Perspective [4.322038460697958]
5,400以上の論文,10,000人の著者,400の会場,1600のMOEA/D研究機関をカプセル化したナレッジグラフを構築します。また、MOEA/Dの協調と引用ネットワークを探求し、文学の成長に隠れたパターンを明らかにする。
論文参考訳（メタデータ） (2024-04-22T14:38:58Z)
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer [22.90687836544612]
bfUni-textは科学文献の深い理解のために設計された革新的モデルである。ユニテキストは、他のテキスト中心のLLMよりも優れたパフォーマンスを示す。我々の探索は、特許侵害検出やグラフのニュアンス解析など、実用的な応用にまで及んでいる。
論文参考訳（メタデータ） (2024-03-15T13:43:47Z)
The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (2023-01-24T17:13:08Z)
Modeling Information Change in Science Communication with Semantically Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。 SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。 SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文参考訳（メタデータ） (2022-10-24T07:44:38Z)
Overview of STEM Science as Process, Method, Material, and Data Named Entities [0.0]
本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
論文参考訳（メタデータ） (2022-05-24T07:35:24Z)
TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of Tasks Datasets and Metrics [32.4845534482475]
NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
論文参考訳（メタデータ） (2021-01-25T17:54:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。