論文の概要: Fine-Tuning Language Models for Scientific Writing Support
- arxiv url: http://arxiv.org/abs/2306.10974v1
- Date: Mon, 19 Jun 2023 14:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:28:22.933289
- Title: Fine-Tuning Language Models for Scientific Writing Support
- Title(参考訳): 科学書記支援のための微調整言語モデル
- Authors: Justin M\"ucke and Daria Waldow and Luise Metzger and Philipp Schauz
and Marcel Hoffman and Nicolas Lell and Ansgar Scherp
- Abstract要約: 我々は、文章が科学的な文であるか、どの部分に属しているのかを判断する科学的著者を支援し、文を改善するためのパラフレーズを提案する。
我々は、A*、A、B、Cランキングで査読され、出版されたarXiv論文から抽出された文に基づいて、様々な大きな言語モデルを訓練する。
文脈を用いることで文の分類が向上し、最大90%のF1スコアが達成されることを示す。
- 参考スコア(独自算出の注目度): 1.7856410179559385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We support scientific writers in determining whether a written sentence is
scientific, to which section it belongs, and suggest paraphrasings to improve
the sentence. Firstly, we propose a regression model trained on a corpus of
scientific sentences extracted from peer-reviewed scientific papers and
non-scientific text to assign a score that indicates the scientificness of a
sentence. We investigate the effect of equations and citations on this score to
test the model for potential biases. Secondly, we create a mapping of section
titles to a standard paper layout in AI and machine learning to classify a
sentence to its most likely section. We study the impact of context, \ie
surrounding sentences, on the section classification performance. Finally, we
propose a paraphraser, which suggests an alternative for a given sentence that
includes word substitutions, additions to the sentence, and structural changes
to improve the writing style. We train various large language models on
sentences extracted from arXiv papers that were peer reviewed and published at
A*, A, B, and C ranked conferences. On the scientificness task, all models
achieve an MSE smaller than $2\%$. For the section classification, BERT
outperforms WideMLP and Sci\-BERT in most cases. We demonstrate that using
context enhances the classification of a sentence, achieving up to a $90\%$
F1-score. Although the paraphrasing models make comparatively few alterations,
they produce output sentences close to the gold standard. Large fine-tuned
models such as T5 Large perform best in experiments considering various
measures of difference between input sentence and gold standard. Code is
provided: \url{https://github.com/JustinMuecke/SciSen}.
- Abstract(参考訳): 我々は、文が科学的であるか否かを判断する科学作家を支援し、文を改善するためにパラフレーズを提案する。
まず,ピアレビューされた科学論文と非科学テキストから抽出された科学文のコーパスに基づいて学習した回帰モデルを提案する。
このスコアに方程式と引用が与える影響を調査し、潜在的なバイアスのモデルをテストする。
次に、セクションタイトルをAIと機械学習の標準的な紙レイアウトにマッピングして、文を最も可能性の高いセクションに分類する。
文脈, 周囲の文が区間分類性能に及ぼす影響について検討した。
最後に、単語置換、文の追加、文体を改善するための構造変更を含む、与えられた文の代替案を提案するパラフレーザーを提案する。
我々は、A*、A、B、Cランキングで査読され、出版されたarXiv論文から抽出された文に基づいて、様々な大きな言語モデルを訓練する。
科学的タスクでは、すべてのモデルがMSEを$2\%以下で達成する。
セクション分類では、BERT は WideMLP と Sci\-BERT より優れている。
文脈を用いることで文の分類が向上し、最大$90\%$ f1-scoreとなることを示す。
パラフレーズ化モデルは比較的わずかな変更を施すが、金標準に近い出力文を生成する。
入力文とゴールド標準の差異の様々な尺度を考慮した実験において、t5 largeのような大きな微調整モデルが最もよく機能する。
コードは \url{https://github.com/justinmuecke/scisen} で提供される。
関連論文リスト
- Classification and Clustering of Sentence-Level Embeddings of Scientific Articles Generated by Contrastive Learning [1.104960878651584]
提案手法は,科学論文から文レベルの埋め込みを生成するための微調整変換言語モデルで構成されている。
対照的な学習で3つのデータセットでモデルをトレーニングしました。
比較学習と下流タスクへの埋め込みを併用した微調整文変換器は,学術論文における文分類への実現可能なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-30T02:52:14Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS [68.34155010428941]
文エンコーダ(SE)が類似する文ペアの種類は明らかでない。
HEROSは、ある規則に基づいて原文を新しい文に変換し、テキスト最小対を形成することによって構築される
HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。
論文 参考訳(メタデータ) (2023-06-08T10:24:02Z) - arXivEdits: Understanding the Human Revision Process in Scientific
Writing [17.63505461444103]
論文執筆におけるテキストリビジョン研究のための完全な計算フレームワークを提供する。
最初にarXivEditsを紹介した。これは、arXivの751個の全文からなる注釈付きコーパスで、複数のバージョンにまたがってゴールドの文をアライメントする。
データ駆動分析をサポートし、論文の改訂のために研究者が実践する一般的な戦略を明らかにします。
論文 参考訳(メタデータ) (2022-10-26T22:50:24Z) - Pruned Graph Neural Network for Short Story Ordering [0.7087237546722617]
コヒーレンスを最大化する順序に文を整理することは、文の順序付けとして知られている。
そこで本研究では,文章間のエッジを生成するために,短い物語の文中心グラフを構築する手法を提案する。
また,代名詞を代名詞の代名詞に置き換えることによって,文中心性グラフの文を効果的にエンコードすることが観察された。
論文 参考訳(メタデータ) (2022-03-13T22:25:17Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Document Embedding for Scientific Articles: Efficacy of Word Embeddings
vs TFIDF [0.0]
本研究は,大規模学術コーパスに適用した単語埋め込みの性能に着目した。
我々は, 学習語埋め込みの品質と効率を, 科学論文の内容のモデル化におけるTFIDF表現と比較した。
以上の結果から,単語埋め込みに基づくコンテンツモデルの方がタイトル(短文)に,TFIDFは抽象文(長文)に好適であることが示唆された。
論文 参考訳(メタデータ) (2021-07-11T23:58:39Z) - CiteWorth: Cite-Worthiness Detection for Improved Scientific Document
Understanding [23.930041685595775]
本研究は,文が外部ソースを引用するか否かをラベル付けした英語における引用親和性検出の詳細な研究である。
CiteWorthは高品質で、挑戦的で、ドメイン適応のような問題の研究に適している。
論文 参考訳(メタデータ) (2021-05-23T11:08:45Z) - InsertGNN: Can Graph Neural Networks Outperform Humans in TOEFL Sentence
Insertion Problem? [66.70154236519186]
センテンス挿入は繊細だが基本的なNLP問題である。
文順序付け、テキストコヒーレンス、質問応答(QA)の現在のアプローチは、その解決には適さない。
本稿では,この問題をグラフとして表現し,グラフニューラルネットワーク(GNN)を用いて文間の関係を学習するモデルであるInsertGNNを提案する。
論文 参考訳(メタデータ) (2021-03-28T06:50:31Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。