論文の概要: Interpretable RNA-Seq Clustering with an LLM-Based Agentic Evidence-Grounded Framework
- arxiv url: http://arxiv.org/abs/2510.16082v1
- Date: Fri, 17 Oct 2025 14:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.839053
- Title: Interpretable RNA-Seq Clustering with an LLM-Based Agentic Evidence-Grounded Framework
- Title(参考訳): LLMに基づくエージェントエビデンスを取り巻くフレームワークによるRNA-Seqクラスタリングの解釈
- Authors: Elias Hossain, Mehrdad Shoeibi, Ivan Garibay, Niloofar Yousefi,
- Abstract要約: CITE V.1は、RNA-seqクラスタの透過的で再現可能な解釈を提供するための、エージェント的でエビデンスを基盤としたフレームワークである。
このフレームワークは3つの専門的なエージェントを編成する: PubMedとUniProtからドメイン知識を収集するRetriever、機能仮説を定式化するInterpreter、クレームを評価し、証拠を根拠にし、信頼性と信頼性の指標を通じて不確実性を評価するCryticsである。
- 参考スコア(独自算出の注目度): 2.8410059035029955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose CITE V.1, an agentic, evidence-grounded framework that leverages Large Language Models (LLMs) to provide transparent and reproducible interpretations of RNA-seq clusters. Unlike existing enrichment-based approaches that reduce results to broad statistical associations and LLM-only models that risk unsupported claims or fabricated citations, CITE V.1 transforms cluster interpretation by producing biologically coherent explanations explicitly anchored in the biomedical literature. The framework orchestrates three specialized agents: a Retriever that gathers domain knowledge from PubMed and UniProt, an Interpreter that formulates functional hypotheses, and Critics that evaluate claims, enforce evidence grounding, and qualify uncertainty through confidence and reliability indicators. Applied to Salmonella enterica RNA-seq data, CITE V.1 generated biologically meaningful insights supported by the literature, while an LLM-only Gemini baseline frequently produced speculative results with false citations. By moving RNA-seq analysis from surface-level enrichment to auditable, interpretable, and evidence-based hypothesis generation, CITE V.1 advances the transparency and reliability of AI in biomedicine.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を活用し,RNA-seqクラスタの透過的かつ再現可能な解釈を提供するエージェント型エビデンス基盤フレームワークCITE V.1を提案する。
CITE V.1は、生物医学文献に明示的に固定された生物学的に一貫性のある説明を生成することによって、クラスタ解釈を変換する。
このフレームワークは3つの専門的なエージェントを編成する: PubMedとUniProtからドメイン知識を収集するRetriever、機能仮説を定式化するInterpreter、クレームを評価し、証拠を根拠にし、信頼性と信頼性の指標を通じて不確実性を評価するCryticsである。
Salmonella enterica RNA-seqデータに応用すると、CITE V.1は生物学的に有意義な知見を生み出し、LSMのみのジェミニ塩基は誤った引用を伴う投機的な結果をしばしば生んだ。
RNA-seq解析を表面レベルエンリッチメントから監査可能、解釈可能、エビデンスベースの仮説生成に移行することで、CITE V.1はバイオメディシンにおけるAIの透明性と信頼性を向上させる。
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation [24.956743572453153]
本稿では,単一セル基盤モデルに適した自然言語評価フレームワークSC-ARENAを提案する。
SC-ARENAは、固有の属性と遺伝子レベルの相互作用の両方を表現して評価対象を統一する仮想セル抽象化を形式化する。
論文 参考訳(メタデータ) (2026-02-26T16:50:28Z) - IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。
大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。
本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (2026-02-08T12:28:29Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Discovering Interpretable Biological Concepts in Single-cell RNA-seq Foundation Models [3.810388351528255]
シングルセルRNA-seqファンデーションモデルは、下流タスクでは高いパフォーマンスを達成するが、ブラックボックスのままである。
近年の研究では、疎辞書学習が深層学習モデルから概念を抽出できることが示されている。
シングルセルRNA-seqモデルのための新しい概念ベースの解釈可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T08:52:55Z) - Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Scientific LLMs [78.18336140706471]
Sci-LLMは、生物発見を加速するための有望なフロンティアとして登場した。
現在の戦略では生の生体分子配列を処理する際にSci-LLMの推論能力を制限する。
より効果的な戦略は、Sci-LLMに高レベルな構造化コンテキストを提供することである。
論文 参考訳(メタデータ) (2025-10-27T09:03:21Z) - HySim-LLM: Embedding-Weighted Fine-Tuning Bounds and Manifold Denoising for Domain-Adapted LLMs [2.079369647798082]
大規模言語モデル(LLM)は、テキスト理解と推論において顕著な進歩を遂げた。
埋め込み重み付きファインチューニングと多様体認識デノーミングを統合した,統一的な数学的・計算フレームワークHySim-LLMを提案する。
本研究では,(1)組込み発散下での適応性能を定量化する類似性重み付き一般化境界,(2)ノイズやオフ多様体からの損失寄与を束縛する多様体に基づく記述保証,の2つの理論的結果を確立する。
論文 参考訳(メタデータ) (2025-10-09T05:16:46Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - LLM Agent Swarm for Hypothesis-Driven Drug Discovery [2.7036595757881323]
ファーマシュワーム(PharmaSwarm)は、新規な薬物標的および鉛化合物の仮説を提唱し、検証し、洗練するために、特殊な「エージェント」を編成する統合マルチエージェントフレームワークである。
PharmaSwarmはAIの副操縦士として機能することで、翻訳研究を加速し、従来のパイプラインよりも効率的に高信頼の仮説を提供することができる。
論文 参考訳(メタデータ) (2025-04-24T22:27:50Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Language-Enhanced Representation Learning for Single-Cell Transcriptomics [27.33236345953242]
単細胞転写学における言語強化表現学習のための新しいフレームワークである scMMGPT を提案する。
scMMGPTは、ロバストな細胞表現抽出を採用し、定量的な遺伝子発現データを保存し、革新的な2段階事前学習戦略を導入する。
論文 参考訳(メタデータ) (2025-03-12T14:26:16Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。