論文の概要: GDC Cohort Copilot: An AI Copilot for Curating Cohorts from the Genomic Data Commons
- arxiv url: http://arxiv.org/abs/2507.02221v1
- Date: Thu, 03 Jul 2025 00:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.383249
- Title: GDC Cohort Copilot: An AI Copilot for Curating Cohorts from the Genomic Data Commons
- Title(参考訳): GDCコホートコパイロット:ゲノムデータコモンズからコホートをキュレートするAIコパイロット
- Authors: Steven Song, Anirudh Subramanyam, Zhenyu Zhang, Aarti Venkat, Robert L. Grossman,
- Abstract要約: GDC Cohort Copilotは、GDC(Genomic Data Commons)のコホートをキュレートするためのオープンソースのコホートツールである。
GDCコホートコパイロットは、所望のコホートについて、ユーザが入力した自然言語記述に対応するGDCコホートフィルタを自動的に生成する。
インタラクティブなユーザインタフェースにより、ユーザは生成されたコホートをさらに洗練することができる。
- 参考スコア(独自算出の注目度): 5.118289635011286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivation: The Genomic Data Commons (GDC) provides access to high quality, harmonized cancer genomics data through a unified curation and analysis platform centered around patient cohorts. While GDC users can interactively create complex cohorts through the graphical Cohort Builder, users (especially new ones) may struggle to find specific cohort descriptors across hundreds of possible fields and properties. However, users may be better able to describe their desired cohort in free-text natural language. Results: We introduce GDC Cohort Copilot, an open-source copilot tool for curating cohorts from the GDC. GDC Cohort Copilot automatically generates the GDC cohort filter corresponding to a user-input natural language description of their desired cohort, before exporting the cohort back to the GDC for further analysis. An interactive user interface allows users to further refine the generated cohort. We develop and evaluate multiple large language models (LLMs) for GDC Cohort Copilot and demonstrate that our locally-served, open-source GDC Cohort LLM achieves better results than GPT-4o prompting in generating GDC cohorts. Availability and implementation: The standalone docker image for GDC Cohort Copilot is available at https://quay.io/repository/cdis/gdc-cohort-copilot. Source code is available at https://github.com/uc-cdis/gdc-cohort-copilot. GDC Cohort LLM weights are available at https://huggingface.co/uc-ctds.
- Abstract(参考訳): モチベーション: ゲノムデータコモンズ(GDC)は、患者コホートを中心とした統一的なキュレーションと分析プラットフォームを通じて、高品質で調和したがんゲノムデータへのアクセスを提供する。
GDCユーザはグラフィカルなCohort Builderを通じて複雑なコホートをインタラクティブに作成できるが、ユーザ(特に新しいもの)は数百のフィールドやプロパティで特定のコホート記述子を見つけるのに苦労する可能性がある。
しかし、ユーザーは自由テキストの自然言語で自分の希望するコホートを記述できるかもしれない。
結果: GDC Cohort Copilotはオープンソースのコホート計算ツールである。
GDCコホートコパイロットは、希望するコホートについてユーザが入力した自然言語記述に対応するGDCコホートフィルタを自動的に生成し、さらに分析のためにコホートをGDCにエクスポートする。
インタラクティブなユーザインタフェースにより、ユーザは生成されたコホートをさらに洗練することができる。
我々は、GDCコホートコパイロットのための複数の大規模言語モデル(LLM)を開発し、GDCコホートを生成する際に、GPT-4oよりも優れた結果が得られることを示す。
可用性と実装: GDC Cohort Copilot用のスタンドアロンのdockerイメージはhttps://quay.io/repository/cdis/gdc-cohort-copilotで公開されている。
ソースコードはhttps://github.com/uc-cdis/gdc-cohort-copilotで公開されている。
GDC Cohort LLMウェイトはhttps://huggingface.co/uc-ctdsで入手できる。
関連論文リスト
- Synthetic Data Generation and Automated Multidimensional Data Labeling for AI/ML in General and Circular Coordinates [2.9465623430708905]
本稿では,合成データ生成と自動データラベリングに対する統一的なアプローチを提案する。
一般ラインコーディネート(GLC)は、複数のGLCでn-Dデータを視覚化するために用いられる。
実データによる結果はケーススタディで実証され、分類器への影響を評価する。
論文 参考訳(メタデータ) (2024-09-03T17:26:50Z) - A Survey on Generative Modeling with Limited Data, Few Shots, and Zero
Shot [33.564516823250806]
機械学習において、生成モデリングは、トレーニングデータ分布と統計的に類似した新しいデータを生成することを目的としている。
これは、データ取得が困難である場合、例えば医療アプリケーションにおいて重要なトピックである。
GM-DCタスク間のインタラクションとアプローチについて検討する。
論文 参考訳(メタデータ) (2023-07-26T12:05:08Z) - CohortFinder: an open-source tool for data-driven partitioning of
biomedical image cohorts to yield robust machine learning models [3.1300896655195323]
バッチエフェクト(BE)とは、機械学習(ML)モデルの一般化性に悪影響を及ぼすことを示す生物学的変異に関連のない、データ収集における系統的な技術的差異を指す。
ここでは、データ駆動のコホートパーティショニングによるBEの緩和を目的としたオープンソースのツールであるCohortFinderをリリースする。
論文 参考訳(メタデータ) (2023-07-17T17:34:32Z) - Federated Generalized Category Discovery [68.35420359523329]
一般カテゴリー発見(GCD)は、未知のクラスからラベルのないサンプルをグループ化することを目的としている。
地域社会における近年の分権化の傾向に対応するため,フェデレーションGCD(Fed-GCD)という,実践的かつ困難な課題を導入する。
Fed-GCDの目標は、プライバシ保護された制約の下で、クライアントのコラボレーションによって汎用的なGCDモデルをトレーニングすることである。
論文 参考訳(メタデータ) (2023-05-23T14:27:41Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Text2Cohort: Facilitating Intuitive Access to Biomedical Data with
Natural Language Cohort Discovery [4.468858802955592]
大規模言語モデル(LLM)は、自然言語処理タスクに非常に便利なことを証明している。
画像データコモンズ(IDC)におけるユーザフレンドリーな自然言語コホート発見を容易にするLLMベースのツールキットであるText2Cohortを開発した。
提案手法は,ユーザ入力をグラウンド手法を用いてIDCクエリに変換し,クエリの応答を返却する。
論文 参考訳(メタデータ) (2023-05-12T17:46:06Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。
実際には、意味情報はデータから学んだ潜在的な分布によって表現される。
ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文 参考訳(メタデータ) (2020-07-28T09:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。