論文の概要: Mamba-SSM with LLM Reasoning for Feature Selection: Faithfulness-Aware Biomarker Discovery
- arxiv url: http://arxiv.org/abs/2604.14334v2
- Date: Fri, 17 Apr 2026 04:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.38154
- Title: Mamba-SSM with LLM Reasoning for Feature Selection: Faithfulness-Aware Biomarker Discovery
- Title(参考訳): 特徴選択のためのLLM推論を用いたMamba-SSM:Fithfulness-Aware Biomarker Discovery
- Authors: Pushpa Kumar Balan, Aijing Feng,
- Abstract要約: TCGA-BRCA RNA-seqでMamba SSMを訓練し、勾配塩分濃度でトップ50遺伝子を抽出する。
ホールドアウト試験分割では、生の50遺伝子サリエンシセット(LSMなし)は5000遺伝子分散ベースラインよりも悪化する。
忠実度監査では、選択された17遺伝子のうち6遺伝子(35.3%)がBRCAバイオマーカーとして検証され、入力に含まれる16のBRCA遺伝子のうち10遺伝子が欠落している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient saliency from deep sequence models surfaces candidate biomarkers efficiently, but the resulting gene lists can be contaminated by tissue-composition confounders that degrade downstream classifiers. We study whether LLM chain-of-thought (CoT) reasoning can filter these confounders, and whether reasoning quality is associated with downstream performance. We train a Mamba SSM on TCGA-BRCA RNA-seq and extract the top-50 genes by gradient saliency; DeepSeek-R1 evaluates every candidate with structured CoT to produce a final 17-gene set. On the held-out test split, the raw 50-gene saliency set (no LLM) performs worse than a 5,000-gene variance baseline (AUC 0.832 vs. 0.903), while the LLM-filtered set surpasses it (AUC 0.927), using 294x fewer features. A faithfulness audit (COSMIC CGC, OncoKB, PAM50) shows that 6 of 17 selected genes (35.3%) are validated BRCA biomarkers, while 10 of 16 known BRCA genes present in the input were missed - including FOXA1. This divergence between downstream performance and reasoning faithfulness suggests selective faithfulness in this setting: targeted confounder removal can improve predictive performance without comprehensive recall.
- Abstract(参考訳): ディープシークエンスモデルからの順応性は、候補バイオマーカーを効率よく表面化するが、結果として得られる遺伝子リストは、下流の分類器を分解する組織構成の共同設立者によって汚染される。
我々は,LLMチェーン・オブ・シークレット(CoT)推論がこれらの共同創設者をフィルタリングするかどうか,また,推論品質が下流のパフォーマンスに関連しているかどうかを検討する。
我々は、TGA-BRCA RNA-seq上でMamba SSMを訓練し、勾配塩分濃度でトップ50遺伝子を抽出し、DeepSeek-R1は構造化CoTを持つ全ての候補を評価し、最終的な17遺伝子セットを生成する。
ホールドアウト試験分割では、生の50遺伝子サリエンシセット(LLMなし)は5,000遺伝子分散ベースライン(AUC 0.832 vs. 0.903)よりも性能が悪く、LLMフィルターセット(AUC 0.927)は294倍の特徴を持つ。
忠実度監査(COSMIC CGC, OncoKB, PAM50)では、選択された17遺伝子のうち6遺伝子(35.3%)がBRCAバイオマーカーとして検証され、入力に含まれる16のBRCA遺伝子のうち10遺伝子(FOXA1を含む)が欠落している。
下流のパフォーマンスと推論の忠実さの相違は、この設定における選択的な忠実さを示唆している。
関連論文リスト
- A deep learning pipeline for PAM50 subtype classification using histopathology images and multi-objective patch selection [0.2958068627971103]
PAM50遺伝子シグネチャは、乳がんを固有のサブタイプに分類する標準として広く認識されている。
本研究では,コストのかかる分子アッセイへの依存を減らすことを目的とした,新しい最適化駆動型ディープラーニングフレームワークを提案する。
提案手法は,非支配的ソート遺伝的アルゴリズムII(NSGA-II)とモンテカルロのドロップアウトに基づく不確実性推定を組み合わせ,パッチ情報量,空間的多様性,不確実性,パッチ数などを共同で最適化する。
論文 参考訳(メタデータ) (2026-04-02T09:13:24Z) - Greedy Is a Strong Default: Agents as Iterative Optimizers [0.22843885788439797]
ランダムな提案生成装置をLCMエージェントに置き換え、評価診断を理由として情報付き候補を提案する。
離散的,混合的,連続的な検索空間にまたがる4つのタスクを評価する。
論文 参考訳(メタデータ) (2026-03-28T21:26:40Z) - Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection [0.0]
Budget-Sensitive Discovery Score (BSDS)は、各予算レベルで誤った発見を罰する。
Discovery Quality Score (DQS)は、チェリーピックされた予算でうまく機能することで、プロジェクタがインフレできないような、単一のサマリー統計を提供する。
フレームワークは、候補が予算制約と非対称なエラーコストの下で選択される任意の設定に適用されます。
論文 参考訳(メタデータ) (2026-03-12T18:09:53Z) - Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT [0.0]
単一細胞基盤モデル Geneformer と scGPT は豊富な生物学的情報をエンコードする。
我々はTopK SAEsをGeneformer V2-316M と scGPT 全体の全層からの残流活性化について訓練した。
両機能をインタラクティブなWebプラットフォームとしてリリースし、2つの主要なシングルセル基盤モデルの30層にわたる107000以上の機能の調査を可能にしました。
論文 参考訳(メタデータ) (2026-03-03T13:05:11Z) - Generalizable Diabetes Risk Stratification via Hybrid Machine Learning Models [0.0]
糖尿病は世界中で5億3700万人を超え、2045年までに7億8300万人に達すると予測されている。
2つのハイブリッド分類器を比較し、外部コホート上での一般化性を評価する。
論文 参考訳(メタデータ) (2025-09-24T21:18:52Z) - Survey and Improvement Strategies for Gene Prioritization with Large Language Models [61.24568051916653]
大規模言語モデル (LLM) は, 医学検査において良好に機能しているが, 希少な遺伝疾患の診断における有効性は評価されていない。
表現型と可溶性レベルに基づいて, マルチエージェントとヒトフェノタイプオントロジー(HPO)を分類した。
ベースラインでは、GPT-4は他のLLMよりも優れており、因果遺伝子を正しくランク付けする際の精度は30%近く向上した。
論文 参考訳(メタデータ) (2025-01-30T23:03:03Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。