論文の概要: Cleaning English Abstracts of Scientific Publications
- arxiv url: http://arxiv.org/abs/2512.24459v1
- Date: Tue, 30 Dec 2025 20:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.487515
- Title: Cleaning English Abstracts of Scientific Publications
- Title(参考訳): 学術論文の英文抄録の整理
- Authors: Michael E. Rose, Nils A. Herrmann, Sebastian Erhardt,
- Abstract要約: 我々は、英語の科学的な抽象概念をきれいにするために設計された、オープンソースの、簡単に統合できる言語モデルを導入する。
我々は,本モデルが保守的かつ正確であり,クリーンな抽象化の類似度ランキングを変更し,標準長埋め込みの情報内容を改善することを実証した。
- 参考スコア(独自算出の注目度): 0.15293427903448018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific abstracts are often used as proxies for the content and thematic focus of research publications. However, a significant share of published abstracts contains extraneous information-such as publisher copyright statements, section headings, author notes, registrations, and bibliometric or bibliographic metadata-that can distort downstream analyses, particularly those involving document similarity or textual embeddings. We introduce an open-source, easy-to-integrate language model designed to clean English-language scientific abstracts by automatically identifying and removing such clutter. We demonstrate that our model is both conservative and precise, alters similarity rankings of cleaned abstracts and improves information content of standard-length embeddings.
- Abstract(参考訳): 科学的な抽象論は、しばしば研究出版物の内容と主題的焦点のプロキシとして使用される。
しかし、出版されている抄録のかなりのシェアは、出版社の著作権文書、セクションの見出し、著者のノート、登録、書誌や書誌のメタデータなど、特に文書の類似性やテキストの埋め込みなど、下流の分析を歪ませることのできる外部情報を含んでいる。
そこで本稿では,英語の科学的な抽象概念を自動的に識別・除去することで,言語をクリーンにするために設計された,オープンソースの統合型言語モデルを提案する。
我々は,本モデルが保守的かつ正確であり,クリーンな抽象化の類似度ランキングを変更し,標準長埋め込みの情報内容を改善することを実証した。
関連論文リスト
- Citation Parsing and Analysis with Language Models [0.0]
文書引用をインデックス化可能な形式でマークアップするオープンウェイト言語モデルの能力について検討する。
ボックスからでも、今日の言語モデルでは、各引用の構成要素を特定する上で高いレベルの精度が得られます。
論文 参考訳(メタデータ) (2025-05-21T19:06:17Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Citance-Contextualized Summarization of Scientific Papers [33.85387549129378]
抄録は、論文と引用された参照の関係を示すものではない。
本稿では,参照の引用を含む所定の文に条件付き情報的要約を生成できる新しい文脈的要約手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T14:08:15Z) - MORTY: Structured Summarization for Targeted Information Extraction from
Scholarly Articles [0.0]
学術論文からテキストの構造化要約を生成する情報抽出手法MORTYを提案する。
我々のアプローチは、構造化要約と呼ばれるセグメント化されたテキストスニペットとして、記事の全文とプロパティと値のペアを凝縮する。
また,学術知識グラフから検索した構造化サマリーと,それに対応する公開可能な科学論文を組み合わせた,規模の高い学術データセットも提示する。
論文 参考訳(メタデータ) (2022-12-11T06:49:29Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - StructSum: Summarization via Structured Representations [27.890477913486787]
抽象テキスト要約は、長い資料の情報を要約した要約に圧縮することを目的としている。
モデリング技術の進歩にもかかわらず、抽象的な要約モデルは依然としていくつかの重要な課題に悩まされている。
本稿では,これらの課題に対処するための要約のための文書レベルの構造誘導に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-01T20:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。