論文の概要: Towards Applying Large Language Models to Complement Single-Cell Foundation Models
- arxiv url: http://arxiv.org/abs/2507.10039v1
- Date: Mon, 14 Jul 2025 08:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.555853
- Title: Towards Applying Large Language Models to Complement Single-Cell Foundation Models
- Title(参考訳): 単一セル基礎モデルを補完する大規模言語モデルの適用に向けて
- Authors: Steven Palayew, Bo Wang, Gary Bader,
- Abstract要約: 本研究では, 単一セルデータに適用した場合, LLMの性能に対する生物学的知見の寄与について検討する。
scMPTは、どちらのコンポーネントモデルよりも強く、より一貫性のあるパフォーマンスを示す。
本研究は、LLMが単一セル基盤モデルを補完し、単一セル解析の改善を促進する可能性を最終的に示すものである。
- 参考スコア(独自算出の注目度): 2.1810900910162445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-cell foundation models such as scGPT represent a significant advancement in single-cell omics, with an ability to achieve state-of-the-art performance on various downstream biological tasks. However, these models are inherently limited in that a vast amount of information in biology exists as text, which they are unable to leverage. There have therefore been several recent works that propose the use of LLMs as an alternative to single-cell foundation models, achieving competitive results. However, there is little understanding of what factors drive this performance, along with a strong focus on using LLMs as an alternative, rather than complementary approach to single-cell foundation models. In this study, we therefore investigate what biological insights contribute toward the performance of LLMs when applied to single-cell data, and introduce scMPT; a model which leverages synergies between scGPT, and single-cell representations from LLMs that capture these insights. scMPT demonstrates stronger, more consistent performance than either of its component models, which frequently have large performance gaps between each other across datasets. We also experiment with alternate fusion methods, demonstrating the potential of combining specialized reasoning models with scGPT to improve performance. This study ultimately showcases the potential for LLMs to complement single-cell foundation models and drive improvements in single-cell analysis.
- Abstract(参考訳): scGPTのような単細胞基盤モデルは、様々な下流の生物学的タスクで最先端のパフォーマンスを達成する能力を持つシングルセルオミクスの顕著な進歩を示している。
しかし、これらのモデルは本質的に、生物学における膨大な量の情報がテキストとして存在し、それらが活用できないという点で制限されている。
したがって、LLMを単一セル基盤モデルの代替として用いることを提案し、競争的な結果を得るという最近の研究がいくつかある。
しかし、このパフォーマンスを駆動する要因についてはほとんど理解されておらず、単一セル基盤モデルに対する補完的なアプローチではなく、代替としてLLMを使うことに重点を置いている。
そこで本研究では, 単一セルデータに適用した場合のLCMの性能に対する生物学的知見の寄与について検討し, scMPTを導入し, これらの知見を捉えたScGPTとLLMの単一セル表現の相乗効果を利用したモデルを提案する。
scMPTは、そのコンポーネントモデルよりも強く、より一貫性のあるパフォーマンスを示す。
また,ScGPTと特殊推論モデルの組み合わせによる性能向上の可能性を示す,代替核融合法の実験を行った。
本研究は、LLMが単一セル基盤モデルを補完し、単一セル解析の改善を促進する可能性を最終的に示すものである。
関連論文リスト
- scE$^2$TM: Toward Interpretable Single-Cell Embedding via Topic Modeling [21.79077173300944]
高品質なセル埋め込みと強力な解釈を提供する,外部知識誘導型単一セル埋め込みトピックモデルである scE2TM を提案する。
20のscRNA-seqデータセットの包括的な評価は、scE2TMがクラスタリング性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-07-11T07:15:13Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs [51.09983600916971]
近年の研究では、線形性を示すモデルがタスク演算の性能を向上させることが示されている。
我々は、この線型性はモデルの部分加群の中にすでに存在すると論じる。
我々はこれらのサブモジュールを独立にマージする革新的なモデルマージ戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T06:23:24Z) - Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。
提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文 参考訳(メタデータ) (2025-04-02T20:33:27Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - CCRL: Contrastive Cell Representation Learning [0.0]
本稿では,H&Eスライドにおけるセル識別のためのコントラストセル表現学習(CCRL)モデルを提案する。
このモデルは、組織の種類によって異なる2つのデータセットにまたがる大きなマージンで、現在利用可能なすべてのセルクラスタリングモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-08-12T18:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。