論文の概要: DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models
- arxiv url: http://arxiv.org/abs/2506.13817v1
- Date: Sat, 14 Jun 2025 23:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.165593
- Title: DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models
- Title(参考訳): DeepSeq: Web検索拡張エージェント生成AIファンデーションモデルによる高速シングルセルRNAシークエンシングデータラベリング
- Authors: Saleem A. Al Dajani, Abel Sanchez, John R. Williams,
- Abstract要約: 生成AI基盤モデルは、構造化された生物学的データを処理するための変換ポテンシャルを提供する。
本稿では,実時間Web検索を用いたエージェント基礎モデルを用いて実験データのラベル付けを自動化し,最大82.5%の精度を実現することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI foundation models offer transformative potential for processing structured biological data, particularly in single-cell RNA sequencing, where datasets are rapidly scaling toward billions of cells. We propose the use of agentic foundation models with real-time web search to automate the labeling of experimental data, achieving up to 82.5% accuracy. This addresses a key bottleneck in supervised learning for structured omics data by increasing annotation throughput without manual curation and human error. Our approach enables the development of virtual cell foundation models capable of downstream tasks such as cell-typing and perturbation prediction. As data volume grows, these models may surpass human performance in labeling, paving the way for reliable inference in large-scale perturbation screens. This application demonstrates domain-specific innovation in health monitoring and diagnostics, aligned with efforts like the Human Cell Atlas and Human Tumor Atlas Network.
- Abstract(参考訳): 生成AI基盤モデルは、構造化された生物学的データ、特にデータセットが数十億の細胞に急速に拡大しているシングルセルRNAシークエンシングを処理するための変換ポテンシャルを提供する。
本稿では,実時間Web検索を用いたエージェント基礎モデルを用いて実験データのラベル付けを自動化し,最大82.5%の精度を実現することを提案する。
これは、手作業によるキュレーションやヒューマンエラーを伴わずに、アノテーションスループットを増大させることにより、構造化オミクスデータの教師あり学習における重要なボトルネックに対処する。
提案手法は,セルタイピングや摂動予測などの下流処理が可能な仮想細胞基盤モデルの開発を可能にする。
データボリュームが大きくなるにつれて、これらのモデルはラベル付けにおける人間のパフォーマンスを上回り、大規模な摂動スクリーンにおける信頼性の高い推論の道を開くことができる。
このアプリケーションは、ヒト細胞アトラス(Human Cell Atlas)やヒト腫瘍アトラスネットワーク(Human tumor Atlas Network)といった取り組みに沿った、健康モニタリングと診断におけるドメイン固有のイノベーションを実証する。
関連論文リスト
- Comparative Analysis of Deep Learning Strategies for Hypertensive Retinopathy Detection from Fundus Images: From Scratch and Pre-trained Models [5.860609259063137]
本稿では,眼底画像から高血圧性網膜症を検出するためのディープラーニング手法の比較分析を行った。
我々は、カスタムCNN、トレーニング済みトランスフォーマーベースモデルのスイート、AutoMLソリューションの3つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2025-06-14T13:11:33Z) - MEDS-Tab: Automated tabularization and baseline methods for MEDS datasets [2.8209943093430443]
この作業は、MEDSフレームワークによるコアデータ標準化の補完的な進歩によって実現されている。
我々は、不規則にサンプリングされた時系列データを著しく単純化し、加速する。
このシステムは、多様なデータセットと臨床設定にわたる健康問題に対する強力なMLソリューションの開発において、信頼性、スケーラビリティ、容易性を大幅に向上する。
論文 参考訳(メタデータ) (2024-10-31T20:36:37Z) - Large-Scale Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
ローカル推論戦略を用いることで、我々のアプローチは変数数に線形な複雑さを伴ってスケールし、数千の変数に効率的にスケールアップする。
大規模遺伝子制御ネットワークにおける因果関係の同定に優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - The Imaginative Generative Adversarial Network: Automatic Data
Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action
Recognition [27.795763107984286]
本稿では、入力データの分布を近似し、この分布から新しいデータをサンプリングする新しい自動データ拡張モデルを提案する。
以上の結果から,拡張戦略は訓練が高速であり,ニューラルネットワークと最先端手法の両方の分類精度を向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-27T11:07:09Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。