Fugu-MT 論文翻訳(概要): LitSumm: Large language models for literature summarisation of non-coding RNAs

論文の概要: LitSumm: Large language models for literature summarisation of non-coding RNAs

arxiv url: http://arxiv.org/abs/2311.03056v3
Date: Fri, 19 Apr 2024 14:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 20:07:00.300208
Title: LitSumm: Large language models for literature summarisation of non-coding RNAs
Title（参考訳）: LitSumm:非コーディングRNAの文献要約のための大規模言語モデル
Authors: Andrew Green, Carlos Ribas, Nancy Ontiveros-Palacios, Sam Griffiths-Jones, Anton I. Petrov, Alex Bateman, Blake Sweeney,
Abstract要約: 生命科学における文学のカリキュラムは、ますます困難になっている。関連する文献全体にスケールするリソースを持つナレッジベースは少ない。非コードRNAのための文献の要約を生成することにより、RNA科学におけるキュレーター時間の欠如を緩和する第一歩を踏み出した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Motivation: Curation of literature in life sciences is a growing challenge. The continued increase in the rate of publication, coupled with the relatively fixed number of curators worldwide presents a major challenge to developers of biomedical knowledgebases. Very few knowledgebases have resources to scale to the whole relevant literature and all have to prioritise their efforts. Results: In this work, we take a first step to alleviating the lack of curator time in RNA science by generating summaries of literature for non-coding RNAs using large language models (LLMs). We demonstrate that high-quality, factually accurate summaries with accurate references can be automatically generated from the literature using a commercial LLM and a chain of prompts and checks. Manual assessment was carried out for a subset of summaries, with the majority being rated extremely high quality. We also applied the most commonly used automated evaluation approaches, finding that they do not correlate with human assessment. Finally, we apply our tool to a selection of over 4,600 ncRNAs and make the generated summaries available via the RNAcentral resource. We conclude that automated literature summarization is feasible with the current generation of LLMs, provided careful prompting and automated checking are applied. Availability: Code used to produce these summaries can be found here: https://github.com/RNAcentral/litscan-summarization and the dataset of contexts and summaries can be found here: https://huggingface.co/datasets/RNAcentral/litsumm-v1. Summaries are also displayed on the RNA report pages in RNAcentral (https://rnacentral.org/)
Abstract（参考訳）: モチベーション(Motivation): 生命科学における文学のカリキュラムは、ますます難しい。出版率の上昇は、世界中のキュレーターの数が比較的一定であることと相まって、バイオメディカルな知識ベースの開発者にとって大きな課題となっている。関係する文献全体にスケールするリソースを持つ知識ベースは極めて少なく、すべて彼らの努力を優先する必要があります。結果: 本研究は, 大規模言語モデル(LLM)を用いて, 非コーディングRNAの文献の要約を生成することにより, RNA科学におけるキュレーター時間不足を緩和する第一歩を踏み出した。文献から,商業LSMと一連のプロンプトとチェックを用いて,高精度な参照を持つ高品質で事実的精度の高い要約を自動生成できることを実証した。要約のサブセットについて手作業による評価が行われ、大多数は極めて高品質であると評価された。また、最もよく使われている自動評価手法を適用し、人間の評価と相関しないことを示した。最後に、我々のツールを4,600 ncRNAのセレクションに適用し、生成したサマリをRNA分散リソースを介して利用できるようにする。文献の自動要約はLLMの現世代で実現可能であると結論し、注意深いプロンプトと自動チェックを適用した。可用性: これらの要約を生成するために使用されるコードは、以下の通りである。 https://github.com/RNAcentral/litscan-summarization and the data of contexts and summaries。 RNAcentral (https://rnacentral.org/) の RNA レポートページにも要約が表示される。

関連論文リスト

Zero-Shot Document-Level Biomedical Relation Extraction via Scenario-based Prompt Design in Two-Stage with LLM [7.808231572590279]
ハードウェアと労働コストの低い汎用大言語モデル (LLM) を用いて, 注釈のない完全文書から同じ結果を得るための新しい手法を提案する。我々のアプローチは、名前付きエンティティ認識(NER)と関係抽出(RE)の2つの主要な段階を組み合わせる。本稿では,プロンプトの有効性を高めるために,5部テンプレート構造とシナリオに基づくプロンプト設計の原理を提案する。
論文参考訳（メタデータ） (2025-05-02T07:33:20Z)
m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [8.238980609871042]
本稿では, バイオメディカルトレーニングに適した, 知識駆動型多エージェント・フレームワークを提案する。我々のアプローチは協調的なマルチエージェントアーキテクチャであり、それぞれがメディカル・サブジェクト・ヘッダー(MeSH)階層によってガイドされ、自律的に高品質なデータを抽出し、合成し、自己評価するための協調作業を行う。
論文参考訳（メタデータ） (2025-04-28T08:18:24Z)
Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文参考訳（メタデータ） (2025-01-25T07:20:44Z)
RNA-GPT: Multimodal Generative System for RNA Sequence Understanding [6.611255836269348]
RNAは生命に不可欠な遺伝情報を運ぶ必須分子である。この重要性にもかかわらず、RNAの研究はしばしば、この話題で利用可能な膨大な文献によって妨げられている。本稿では,RNA発見の簡易化を目的としたマルチモーダルRNAチャットモデルであるRNA-GPTを紹介する。
論文参考訳（メタデータ） (2024-10-29T06:19:56Z)
Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文参考訳（メタデータ） (2024-10-21T17:12:06Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。 Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文参考訳（メタデータ） (2024-07-05T20:25:04Z)
Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:47:47Z)
BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-14T19:39:19Z)
BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。 textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。 textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文参考訳（メタデータ） (2024-05-01T12:01:39Z)
RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks [1.1764999317813143]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠れコードを明らかにする。 RiNALMoは、これまでで最大のRNA言語モデルであり、6億5千万のパラメータが3600万の非コーディングRNA配列で事前訓練されている。
論文参考訳（メタデータ） (2024-02-29T14:50:58Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文参考訳（メタデータ） (2023-10-16T16:45:12Z)
Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (2023-09-18T08:13:01Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease Association Prediction [0.4061135251278187]
本稿では, MuCoMiD と呼ぶ新しいマルチタスク畳み込み方式を提案する。 MuCoMiDは、4つの異種生物情報ソースからの知識を取り入れつつ、自動特徴抽出を可能にする。我々は、標準ベンチマークデータセットに関する大規模な実験と、より大規模な独立したテストセットとケーススタディを構築した。 MuCoMiDは、HMDDv2.0とHMDDv3.0データセットで5倍のCV評価を少なくとも5%改善し、最先端のアプローチよりも、目に見えない病気や目に見えない病気を持つ大規模独立テストセットで少なくとも49%改善した。
論文参考訳（メタデータ） (2021-08-08T10:01:46Z)
Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文参考訳（メタデータ） (2020-12-29T14:39:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。