Fugu-MT 論文翻訳(概要): scInterpreter: Training Large Language Models to Interpret scRNA-seq Data for Cell Type Annotation

論文の概要: scInterpreter: Training Large Language Models to Interpret scRNA-seq Data for Cell Type Annotation

arxiv url: http://arxiv.org/abs/2402.12405v1
Date: Sun, 18 Feb 2024 05:39:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 18:49:39.289740
Title: scInterpreter: Training Large Language Models to Interpret scRNA-seq Data for Cell Type Annotation
Title（参考訳）: scInterpreter: セル型アノテーションのためのscRNA-seqデータ解釈のための大規模言語モデルのトレーニング
Authors: Cong Li, Meng Xiao, Pengfei Wang, Guihai Feng, Xin Li, Yuanchun Zhou
Abstract要約: 本研究は、単一細胞RNAシークエンシングデータにおいて、細胞型を解釈し、区別する機能を備えた大規模言語モデルの訓練および適応方法に焦点を当てる。
参考スコア（独自算出の注目度）: 15.718901418627366
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the inherent limitations of existing Large Language Models in directly reading and interpreting single-cell omics data, they demonstrate significant potential and flexibility as the Foundation Model. This research focuses on how to train and adapt the Large Language Model with the capability to interpret and distinguish cell types in single-cell RNA sequencing data. Our preliminary research results indicate that these foundational models excel in accurately categorizing known cell types, demonstrating the potential of the Large Language Models as effective tools for uncovering new biological insights.
Abstract（参考訳）: 単一セルのオミックデータを直接読み書きする上で、既存の大規模言語モデルの固有の制限にもかかわらず、基礎モデルとして重要な可能性と柔軟性を示している。本研究は、単一細胞RNAシークエンシングデータにおいて、細胞型を解釈し、区別する機能を備えた大規模言語モデルの訓練および適応方法に焦点を当てる。予備研究の結果,これらの基礎モデルが既知の細胞型を正確に分類し,新しい生物学的知見を明らかにする効果的なツールとしての大規模言語モデルの可能性を示した。

関連論文リスト

CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following [32.67347401145835]
大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。 InstructCellは、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロである。 InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。
論文参考訳（メタデータ） (2025-01-14T15:12:19Z)
scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文参考訳（メタデータ） (2024-12-24T04:28:42Z)
Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文参考訳（メタデータ） (2024-12-03T23:58:35Z)
A generative framework to bridge data-driven models and scientific theories in language neuroscience [84.76462599023802]
脳内の言語選択性の簡潔な説明を生成するためのフレームワークである生成的説明媒介バリデーションを提案する。本研究では,説明精度が基礎となる統計モデルの予測力と安定性と密接に関連していることを示す。
論文参考訳（メタデータ） (2024-10-01T15:57:48Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
EEG-Language Modeling for Pathology Detection [0.0]
本研究は臨床報告に基づく脳波モデルの先駆者であり,脳波は15,000である。以上の結果から,よりリッチな表現をさまざまなレポートセグメントに公開することで,モデルが学習できることが示唆された。 EEG言語モデルの表現は、脳波のみのモデルと比較して、病理診断を大幅に改善することができる。
論文参考訳（メタデータ） (2024-09-02T10:03:03Z)
Critical Data Size of Language Models from a Grokking Perspective [35.029074833552656]
我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
論文参考訳（メタデータ） (2024-01-19T03:24:36Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Revolutionizing Single Cell Analysis: The Power of Large Language Models for Cell Type Annotation [0.0]
ChatGPTやNew Bingのような大規模な言語モデルは、細胞型の正確なアノテーションを提供する。単一細胞データのアノテートにChatGPTを用いることで、レア細胞型を機能に関連付けることができる。これは、がんの進行、哺乳類の発達、幹細胞の分化を理解する上で重要な応用となる。
論文参考訳（メタデータ） (2023-04-05T18:45:54Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
CCRL: Contrastive Cell Representation Learning [0.0]
本稿では,H&Eスライドにおけるセル識別のためのコントラストセル表現学習(CCRL)モデルを提案する。このモデルは、組織の種類によって異なる2つのデータセットにまたがる大きなマージンで、現在利用可能なすべてのセルクラスタリングモデルより優れていることを示す。
論文参考訳（メタデータ） (2022-08-12T18:12:03Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)
Data Augmentation for Spoken Language Understanding via Pretrained Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文参考訳（メタデータ） (2020-04-29T04:07:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。