論文の概要: LitSumm: Large language models for literature summarisation of
non-coding RNAs
- arxiv url: http://arxiv.org/abs/2311.03056v1
- Date: Mon, 6 Nov 2023 12:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:36:58.386061
- Title: LitSumm: Large language models for literature summarisation of
non-coding RNAs
- Title(参考訳): LitSumm:非コーディングRNAの文献要約のための大規模言語モデル
- Authors: Andrew Green, Carlos Ribas, Nancy Ontiveros-Palacios, Anton I. Petrov,
Alex Bateman and Blake Sweeney
- Abstract要約: 生命科学における文学のカリキュラムは、ますます困難になっている。
関連する文献全体にスケールするリソースを持つナレッジベースは少ない。
非コードRNAのための文献の要約を生成することにより、RNA科学におけるキュレーター時間の欠如を緩和する第一歩を踏み出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivation: Curation of literature in life sciences is a growing challenge.
The continued increase in the rate of publication, coupled with the relatively
fixed number of curators worldwide presents a major challenge to developers of
biomedical knowledgebases. Very few knowledgebases have resources to scale to
the whole relevant literature and all have to prioritise their efforts.
Results: In this work, we take a first step to alleviating the lack of
curator time in RNA science by generating summaries of literature for
non-coding RNAs using large language models (LLMs). We demonstrate that
high-quality, factually accurate summaries with accurate references can be
automatically generated from the literature using a commercial LLM and a chain
of prompts and checks. Manual assessment was carried out for a subset of
summaries, with the majority being rated extremely high quality. We also
applied the most commonly used automated evaluation approaches, finding that
they do not correlate with human assessment. Finally, we apply our tool to a
selection of over 4,600 ncRNAs and make the generated summaries available via
the RNAcentral resource. We conclude that automated literature summarization is
feasible with the current generation of LLMs, provided careful prompting and
automated checking are applied.
Availability: Code used to produce these summaries can be found here:
https://github.com/RNAcentral/litscan-summarization and the dataset of contexts
and summaries can be found here:
https://huggingface.co/datasets/RNAcentral/litsumm-v1. Summaries are also
displayed on the RNA report pages in RNAcentral (https://rnacentral.org/)
- Abstract(参考訳): モチベーション(Motivation): 生命科学における文学のカリキュラムは、ますます難しい。
出版率の継続的な増加と世界中のキュレーターの相対的な増加は、生物医学的知識基盤の開発者にとって大きな課題となっている。
関係する文献全体にスケールするリソースを持つ知識ベースは極めて少なく、すべて彼らの努力を優先する必要があります。
結果: 本研究は, 大規模言語モデル(LLM)を用いた非コーディングRNAの文献の要約を生成することにより, RNA科学におけるキュレーター時間不足を緩和する第一歩を踏み出した。
文献から,商業LSMと一連のプロンプトとチェックを用いて,高精度な参照付き高品質な要約を自動生成できることを実証した。
要約のサブセットに対して手作業による評価が行われ、その大半は極めて高い品質で評価された。
また,最も一般的に使用される自動評価手法を適用し,人間評価と相関しないことを見いだした。
最後に、我々のツールを4,600 ncRNAのセレクションに適用し、生成したサマリをRNA分散リソースを介して利用できるようにする。
文献の自動要約はLLMの現世代で実現可能であると結論し、注意深いプロンプトと自動チェックを適用した。
可用性: これらの要約を生成するために使用されるコードは、以下の通りである。 https://github.com/RNAcentral/litscan-summarization and the data of contexts and summaries。
RNAcentral (https://rnacentral.org/) の RNA レポートページにも要約が表示される。
関連論文リスト
- RiNALMo: General-Purpose RNA Language Models Can Generalize Well on
Structure Prediction Tasks [1.2466379414976048]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠されたコードを明らかにする。
RiNALMoは、これまでで最大のRNAモデルであり、600万ドルの非コーディングRNA配列で事前訓練された650ドルのパラメータを持つ。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - Description Generation using Variational Auto-Encoders for precursor
microRNA [5.6710852973206105]
本稿では、Vari Auto-Encodersによる生成モデリングを利用して、pre-miRNAの潜伏因子を明らかにする新しいフレームワークを提案する。
フレームワークを分類に適用し、高い再構成と分類性能を得るとともに、正確な記述も開発する。
論文 参考訳(メタデータ) (2023-11-29T15:41:45Z) - On Context Utilization in Summarization with Large Language Models [91.59419922599618]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Splicing Up Your Predictions with RNA Contrastive Learning [4.35360799431127]
我々は、代替スプライシング遺伝子複製によって生成された機能配列間の類似性を利用して、対照的な学習手法をゲノムデータに拡張する。
RNA半減期やリボソーム負荷予測などの下流タスクにおけるそれらの有用性を検証する。
学習された潜在空間の探索は、我々の対照的な目的が意味論的に意味のある表現をもたらすことを示した。
論文 参考訳(メタデータ) (2023-10-12T21:51:25Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Predictive models of RNA degradation through dual crowdsourcing [2.003083111563343]
クラウドソーシングされた機械学習コンペ("Stanford OpenVaccine")についてKaggleで説明する。
勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。
論文 参考訳(メタデータ) (2021-10-14T16:50:37Z) - MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease
Association Prediction [0.4061135251278187]
本稿では, MuCoMiD と呼ぶ新しいマルチタスク畳み込み方式を提案する。
MuCoMiDは、4つの異種生物情報ソースからの知識を取り入れつつ、自動特徴抽出を可能にする。
我々は、標準ベンチマークデータセットに関する大規模な実験と、より大規模な独立したテストセットとケーススタディを構築した。
MuCoMiDは、HMDDv2.0とHMDDv3.0データセットで5倍のCV評価を少なくとも5%改善し、最先端のアプローチよりも、目に見えない病気や目に見えない病気を持つ大規模独立テストセットで少なくとも49%改善した。
論文 参考訳(メタデータ) (2021-08-08T10:01:46Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。