論文の概要: scInterpreter: Training Large Language Models to Interpret scRNA-seq
Data for Cell Type Annotation
- arxiv url: http://arxiv.org/abs/2402.12405v1
- Date: Sun, 18 Feb 2024 05:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:49:39.289740
- Title: scInterpreter: Training Large Language Models to Interpret scRNA-seq
Data for Cell Type Annotation
- Title(参考訳): scInterpreter: セル型アノテーションのためのscRNA-seqデータ解釈のための大規模言語モデルのトレーニング
- Authors: Cong Li, Meng Xiao, Pengfei Wang, Guihai Feng, Xin Li, Yuanchun Zhou
- Abstract要約: 本研究は、単一細胞RNAシークエンシングデータにおいて、細胞型を解釈し、区別する機能を備えた大規模言語モデルの訓練および適応方法に焦点を当てる。
- 参考スコア(独自算出の注目度): 15.718901418627366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the inherent limitations of existing Large Language Models in
directly reading and interpreting single-cell omics data, they demonstrate
significant potential and flexibility as the Foundation Model. This research
focuses on how to train and adapt the Large Language Model with the capability
to interpret and distinguish cell types in single-cell RNA sequencing data. Our
preliminary research results indicate that these foundational models excel in
accurately categorizing known cell types, demonstrating the potential of the
Large Language Models as effective tools for uncovering new biological
insights.
- Abstract(参考訳): 単一セルのオミックデータを直接読み書きする上で、既存の大規模言語モデルの固有の制限にもかかわらず、基礎モデルとして重要な可能性と柔軟性を示している。
本研究は、単一細胞RNAシークエンシングデータにおいて、細胞型を解釈し、区別する機能を備えた大規模言語モデルの訓練および適応方法に焦点を当てる。
予備研究の結果,これらの基礎モデルが既知の細胞型を正確に分類し,新しい生物学的知見を明らかにする効果的なツールとしての大規模言語モデルの可能性を示した。
関連論文リスト
- A generative framework to bridge data-driven models and scientific theories in language neuroscience [84.76462599023802]
脳内の言語選択性の簡潔な説明を生成するためのフレームワークである生成的説明媒介バリデーションを提案する。
本研究では,説明精度が基礎となる統計モデルの予測力と安定性と密接に関連していることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - EEG-Language Modeling for Pathology Detection [0.0]
本研究は臨床報告に基づく脳波モデルの先駆者であり,脳波は15,000である。
以上の結果から,よりリッチな表現をさまざまなレポートセグメントに公開することで,モデルが学習できることが示唆された。
EEG言語モデルの表現は、脳波のみのモデルと比較して、病理診断を大幅に改善することができる。
論文 参考訳(メタデータ) (2024-09-02T10:03:03Z) - Critical Data Size of Language Models from a Grokking Perspective [35.029074833552656]
我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
論文 参考訳(メタデータ) (2024-01-19T03:24:36Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Revolutionizing Single Cell Analysis: The Power of Large Language Models
for Cell Type Annotation [0.0]
ChatGPTやNew Bingのような大規模な言語モデルは、細胞型の正確なアノテーションを提供する。
単一細胞データのアノテートにChatGPTを用いることで、レア細胞型を機能に関連付けることができる。
これは、がんの進行、哺乳類の発達、幹細胞の分化を理解する上で重要な応用となる。
論文 参考訳(メタデータ) (2023-04-05T18:45:54Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - CCRL: Contrastive Cell Representation Learning [0.0]
本稿では,H&Eスライドにおけるセル識別のためのコントラストセル表現学習(CCRL)モデルを提案する。
このモデルは、組織の種類によって異なる2つのデータセットにまたがる大きなマージンで、現在利用可能なすべてのセルクラスタリングモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-08-12T18:12:03Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。