Fugu-MT 論文翻訳(概要): A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

論文の概要: A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

arxiv url: http://arxiv.org/abs/2501.08187v1
Date: Tue, 14 Jan 2025 15:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.525118
Title: A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following
Title（参考訳）: 命令追従による単セル解析のためのマルチモーダルAIコパイロット
Authors: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen,
Abstract要約: 大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。 InstructCellは、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロである。 InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。
参考スコア（独自算出の注目度）: 32.67347401145835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models excel at interpreting complex natural language instructions, enabling them to perform a wide range of tasks. In the life sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language of cellular biology", capturing intricate gene expression patterns at the single-cell level. However, interacting with this "language" through conventional tools is often inefficient and unintuitive, posing challenges for researchers. To address these limitations, we present InstructCell, a multi-modal AI copilot that leverages natural language as a medium for more direct and flexible single-cell analysis. We construct a comprehensive multi-modal instruction dataset that pairs text-based instructions with scRNA-seq profiles from diverse tissues and species. Building on this, we develop a multi-modal cell language architecture capable of simultaneously interpreting and processing both modalities. InstructCell empowers researchers to accomplish critical tasks-such as cell type annotation, conditional pseudo-cell generation, and drug sensitivity prediction-using straightforward natural language commands. Extensive evaluations demonstrate that InstructCell consistently meets or exceeds the performance of existing single-cell foundation models, while adapting to diverse experimental conditions. More importantly, InstructCell provides an accessible and intuitive tool for exploring complex single-cell data, lowering technical barriers and enabling deeper biological insights.
Abstract（参考訳）: 大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。生命科学において、単細胞RNAシークエンシング(scRNA-seq)データは「細胞生物学の言語」として機能し、複雑な遺伝子発現パターンを単一細胞レベルで捉える。しかし、従来のツールを通してこの「言語」と対話することは、しばしば非効率的で直感的であり、研究者にとっての課題である。これらの制限に対処するために、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロであるInstructCellを紹介する。我々は、テキストベースの命令と様々な組織や種からのcRNA-seqプロファイルを組み合わせた総合的なマルチモーダル・インストラクション・データセットを構築した。そこで我々は,両モードを同時に解釈・処理できるマルチモーダル・セル言語アーキテクチャを開発した。 InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。広範囲な評価は、InstructCellが既存の単一セル基盤モデルの性能を一貫して満たしたり、超えたりしながら、多様な実験条件に適応していることを示している。さらに重要なのは、InstructCellは、複雑なシングルセルデータを探索し、技術的な障壁を低くし、より深い生物学的洞察を可能にする、アクセスしやすく直感的なツールを提供することだ。

関連論文リスト

Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability [1.9638866836733835]
NCBI遺伝子データベースから,遺伝子特異的なテキストアノテーションを用いて生物学的に文脈化された細胞埋め込みを生成する。単一細胞RNAシークエンシング(scRNA-seq)データセットの各細胞について、遺伝子発現レベルで遺伝子をランク付けし、NCBI遺伝子記述を検索し、これらの記述をベクトル埋め込み表現に変換する。
論文参考訳（メタデータ） (2025-05-12T03:39:33Z)
CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文参考訳（メタデータ） (2024-12-24T04:28:42Z)
COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文参考訳（メタデータ） (2024-12-13T18:42:00Z)
Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文参考訳（メタデータ） (2024-12-03T23:58:35Z)
LangCell: Language-Cell Pre-training for Cell Identity Understanding [3.6518971609937068]
我々は,事前学習期間中に,単一セルデータと自然言語の統一表現であるLangCellを紹介する。以上の結果から,ゼロショットセル識別理解シナリオにおいて効果的に機能できる単一セルPLMはLangCellのみであることが示唆された。
論文参考訳（メタデータ） (2024-05-09T10:04:05Z)
scInterpreter: Training Large Language Models to Interpret scRNA-seq Data for Cell Type Annotation [15.718901418627366]
本研究は、単一細胞RNAシークエンシングデータにおいて、細胞型を解釈し、区別する機能を備えた大規模言語モデルの訓練および適応方法に焦点を当てる。
論文参考訳（メタデータ） (2024-02-18T05:39:00Z)
ChatCell: Facilitating Single-Cell Analysis with Natural Language [40.4429032376233]
ChatCellは、自然言語による単一セル分析を容易にするツールである。 ChatCellは単細胞生物学の深い専門知識を得た。プロジェクトのホームページはhttps://zjunlp.io/project/ChatCell.orgで公開されています。
論文参考訳（メタデータ） (2024-02-13T09:06:14Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文参考訳（メタデータ） (2021-10-11T12:48:44Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。