論文の概要: Automating Exploratory Multiomics Research via Language Models
- arxiv url: http://arxiv.org/abs/2506.07591v1
- Date: Mon, 09 Jun 2025 09:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.89498
- Title: Automating Exploratory Multiomics Research via Language Models
- Title(参考訳): 言語モデルによる探索的マルチオミクス研究の自動化
- Authors: Shang Qu, Ning Ding, Linhai Xie, Yifei Li, Zaoqu Liu, Kaiyan Zhang, Yibai Xiong, Yuxin Zuo, Zhangren Chen, Ermo Hua, Xingtai Lv, Youbang Sun, Yang Li, Dong Li, Fuchu He, Bowen Zhou,
- Abstract要約: PROTEUSは、生のデータファイルからデータ駆動仮説を生成する完全に自動化されたシステムである。
本稿では, 下流データ解析と仮説の提案が重要な分野である臨床プロテオゲノミクス(Proteogenomics)にProteusを適用した。
- 参考スコア(独自算出の注目度): 22.302672656499315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PROTEUS, a fully automated system that produces data-driven hypotheses from raw data files. We apply PROTEUS to clinical proteogenomics, a field where effective downstream data analysis and hypothesis proposal is crucial for producing novel discoveries. PROTEUS uses separate modules to simulate different stages of the scientific process, from open-ended data exploration to specific statistical analysis and hypothesis proposal. It formulates research directions, tools, and results in terms of relationships between biological entities, using unified graph structures to manage complex research processes. We applied PROTEUS to 10 clinical multiomics datasets from published research, arriving at 360 total hypotheses. Results were evaluated through external data validation and automatic open-ended scoring. Through exploratory and iterative research, the system can navigate high-throughput and heterogeneous multiomics data to arrive at hypotheses that balance reliability and novelty. In addition to accelerating multiomic analysis, PROTEUS represents a path towards tailoring general autonomous systems to specialized scientific domains to achieve open-ended hypothesis generation from data.
- Abstract(参考訳): 本稿では,生データファイルからデータ駆動仮説を生成する完全自動システム PROTEUS を紹介する。
本稿では, 下流データ解析と仮説の提案が重要な分野である臨床プロテオゲノミクス(Proteogenomics)にProteusを適用した。
PROTEUSは、オープンなデータ探索から特定の統計分析と仮説の提案まで、科学プロセスの様々な段階をシミュレートするために別々のモジュールを使用する。
複雑な研究プロセスを管理するために、統一されたグラフ構造を用いて、生物学的実体間の関係の観点で研究の方向性、ツール、結果を定式化する。
ProTEUSを10種類の臨床マルチオミクスデータセットに適用し,360個の仮説に到達した。
結果は外部データ検証と自動オープンエンドスコアによって評価された。
探索的かつ反復的な研究を通じて、システムは高スループットで異質なマルチオミクスデータをナビゲートし、信頼性と新規性のバランスをとる仮説に到達することができる。
PROTEUSは、マルチオーミック分析の加速に加えて、データからオープンな仮説生成を達成するために、専門の科学領域に汎用的な自律システムを調整するための道のりを示している。
関連論文リスト
- BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research [29.469867701731374]
BioDSA-1Kは1029の仮説中心のタスクと1,177の分析計画からなる。
このベンチマークは,(1)仮説決定精度,(2)証拠と結論の整合性,(3)推論過程の正しさ,(4)AI生成解析コードの実行可能性の4つの軸に沿った評価を可能にする。
論文 参考訳(メタデータ) (2025-05-22T01:02:21Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Automating Exploratory Proteomics Research via Language Models [22.302672656499315]
PROTEUSは、生データから科学的発見を行うための完全に自動化されたシステムである。
人間の介入なしに研究目的、分析結果、新しい生物学的仮説を包括的に作成する。
論文 参考訳(メタデータ) (2024-11-06T08:16:56Z) - Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data [0.0]
本研究では,ドメイン固有モデルであるBERN2と大規模言語モデル(LLM)を組み合わせることにより,調査データから自動表現性を高める可能性について検討した。
我々は ORIGINS 調査データから,エンティティ認識と正規化モデルであるBERN2 を用いて情報抽出を行った。
BERN2は疾患の言及を抽出・正規化する上で高い性能を示し、特にFew Shot InferenceとRAGオーケストレーションとのLLMの統合により精度が向上した。
論文 参考訳(メタデータ) (2024-10-28T02:55:03Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Toward a Team of AI-made Scientists for Scientific Discovery from Gene
Expression Data [9.767546641019862]
我々は、科学的な発見パイプラインを合理化するために設計された新しいフレームワーク、AIマニュフェストチーム(TAIS)を紹介する。
TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレートされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。
これらの役割は、典型的にはデータ科学者が行うタスクを再現するために協力し、疾患予測遺伝子を特定することに焦点を当てている。
論文 参考訳(メタデータ) (2024-02-15T06:30:12Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。