論文の概要: CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
- arxiv url: http://arxiv.org/abs/2508.03159v1
- Date: Tue, 05 Aug 2025 07:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.82983
- Title: CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
- Title(参考訳): CoTox:連鎖型分子毒性推論と予測
- Authors: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang,
- Abstract要約: 大規模言語モデル(LLM)は、ステップバイステップの推論とテキストデータの統合を通じて、有望な代替手段を提供する。
我々は,多毒性予測のためのLLMとチェーン・オブ・シント(CoT)推論を統合する新しいフレームワークであるCoToxを提案する。
GPT-4oを用いて、CoToxが従来の機械学習モデルとディープラーニングモデルの両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 18.693662550601147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drug toxicity remains a major challenge in pharmaceutical development. Recent machine learning models have improved in silico toxicity prediction, but their reliance on annotated data and lack of interpretability limit their applicability. This limits their ability to capture organ-specific toxicities driven by complex biological mechanisms. Large language models (LLMs) offer a promising alternative through step-by-step reasoning and integration of textual data, yet prior approaches lack biological context and transparent rationale. To address this issue, we propose CoTox, a novel framework that integrates LLM with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox combines chemical structure data, biological pathways, and gene ontology (GO) terms to generate interpretable toxicity predictions through step-by-step reasoning. Using GPT-4o, we show that CoTox outperforms both traditional machine learning and deep learning model. We further examine its performance across various LLMs to identify where CoTox is most effective. Additionally, we find that representing chemical structures with IUPAC names, which are easier for LLMs to understand than SMILES, enhances the model's reasoning ability and improves predictive performance. To demonstrate its practical utility in drug development, we simulate the treatment of relevant cell types with drug and incorporated the resulting biological context into the CoTox framework. This approach allow CoTox to generate toxicity predictions aligned with physiological responses, as shown in case study. This result highlights the potential of LLM-based frameworks to improve interpretability and support early-stage drug safety assessment. The code and prompt used in this work are available at https://github.com/dmis-lab/CoTox.
- Abstract(参考訳): 薬物毒性は、医薬開発において大きな課題である。
最近の機械学習モデルでは、シリコ毒性の予測が改善されているが、注釈付きデータへの依存と解釈可能性の欠如により適用性が制限されている。
これにより、複雑な生物学的機構によって引き起こされる臓器特異的毒性を捕捉する能力が制限される。
大規模言語モデル(LLM)は、ステップバイステップの推論とテキストデータの統合を通じて、有望な代替手段を提供する。
この問題に対処するために,多毒性予測のためのLLMとチェーン・オブ・シント(CoT)推論を統合する新しいフレームワークであるCoToxを提案する。
CoToxは、化学構造データ、生物学的経路、遺伝子オントロジー(GO)用語を組み合わせて、ステップバイステップの推論を通じて解釈可能な毒性予測を生成する。
GPT-4oを用いて、CoToxが従来の機械学習モデルとディープラーニングモデルの両方より優れていることを示す。
さらに,その性能を多種多様なLLMで検証し,CoToxの効率性を検証した。
さらに,LSMがSMILESよりも理解しやすいIUPAC名の化学構造を表現することにより,モデルの推論能力を高め,予測性能を向上させることが確認された。
薬物開発におけるその実用性を実証するため,関連細胞型の薬物による処理をシミュレートし,その結果の生物学的文脈をCoToxフレームワークに組み込んだ。
このアプローチにより、ケーススタディで示されているように、CoToxは生理的反応に沿った毒性予測を生成することができる。
この結果は、LLMベースのフレームワークが、解釈可能性を改善し、早期の薬物安全性評価をサポートする可能性を強調している。
この作業で使用されるコードとプロンプトはhttps://github.com/dmis-lab/CoTox.comで公開されている。
関連論文リスト
- Beyond SMILES: Evaluating Agentic Systems for Drug Discovery [0.0]
薬物発見のためのエージェントシステムは、自律的な計画、文献採掘、分子設計を実証している。
ペプチド治療,in vivo薬理学,資源制約設定から抽出した15のタスククラスに対する6つのフレームワークの評価を行った。
タンパク質言語モデルやペプチド特異的な予測のサポートなし,in vivoデータとサイリコデータ間のブリッジなし,MLトレーニングや強化学習への道のないLPM推論に依存しない,5つの機能ギャップがある。
論文 参考訳(メタデータ) (2026-02-10T09:01:09Z) - Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis [51.83339196548892]
ChemCraftは、知識ストレージから化学推論を分離する新しいフレームワークである。
ChemCraftは最小の推論コストで優れたパフォーマンスを実現する。
この研究は、AI支援化学のコスト効率とプライバシ保護のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-25T04:23:34Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Task-Specific Sparse Feature Masks for Molecular Toxicity Prediction with Chemical Language Models [5.563119267291969]
本稿では,精度と解釈可能性の両立を図るために,新しいマルチタスク学習(MTL)フレームワークを提案する。
我々のアーキテクチャは、共通化学言語モデルとタスク固有のアテンションモジュールを統合している。
これらのモジュールにL1のスパーシリティのペナルティを課すことにより、このフレームワークは個々の毒性エンドポイントに対して最小限の塩分分子フラグメントに焦点を絞ることに制約される。
論文 参考訳(メタデータ) (2025-12-12T09:41:04Z) - Combining Deep Learning and Explainable AI for Toxicity Prediction of Chemical Compounds [0.764671395172401]
本研究では,化学構造の2次元グラフィカル表現を処理するDenseNet121に基づく新しい画像ベースパイプラインを提案する。
我々は、モデル予測を解釈し、毒性分類に寄与する分子領域を強調するために、説明可能なAI技術であるGrad-CAM視覚化を用いる。
論文 参考訳(メタデータ) (2025-10-26T08:05:11Z) - oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning [44.36582860924775]
有機化学における有機機構推論のための,最初の大規模で専門家によるベンチマークであるoMeBenchを紹介する。
また,ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークoMeSを提案する。
論文 参考訳(メタデータ) (2025-10-09T03:13:31Z) - <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (2025-09-10T07:48:24Z) - Conditional Chemical Language Models are Versatile Tools in Drug Discovery [0.0]
分子の優先順位を決定するための生物学的文脈を規定する化学モデリングフレームワークSAFE-Tを提案する。
仮想スクリーニング、ドラッグ・ターゲット相互作用予測、アクティビティ・崖検出などのタスク間で分子のスコアリングがサポートされている。
既存のアプローチに匹敵するパフォーマンスを継続的に達成します。
論文 参考訳(メタデータ) (2025-07-14T13:42:39Z) - DrugMCTS: a drug repurposing framework combining multi-agent, RAG and Monte Carlo Tree Search [10.123162419093973]
DrugMCTSは、RAG、マルチエージェントコラボレーション、薬物再配置のためのMonte Carlo Tree Searchを統合する新しいフレームワークである。
分子情報やタンパク質情報を検索・解析する5つの専門的なエージェントを駆使し、構造的かつ反復的な推論を可能にする。
本結果は,構造化推論,エージェントによる協調,フィードバックによる探索機構の重要性を強調した。
論文 参考訳(メタデータ) (2025-07-10T04:39:55Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification? [19.700175505235876]
ToxiMolは、分子毒性の修復に焦点を当てた汎用マルチモーダル言語モデル(MLLM)のための最初のベンチマークタスクである。
11の一次課題と560の有毒な分子を包含し, 多様な機構と粒度にまたがる標準データセットを構築した。
論文 参考訳(メタデータ) (2025-06-12T17:25:53Z) - Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models [46.05020842978823]
大規模言語モデル(LLM)はこの複雑なデータランドスケープをナビゲートする強力なツールとして登場した。
RAGGEDは、知識統合と仮説生成を伴う研究者を支援するために設計された包括的なワークフローである。
論文 参考訳(メタデータ) (2024-07-17T07:44:18Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - SynerGPT: In-Context Learning for Personalized Drug Synergy Prediction
and Drug Design [64.69434941796904]
本稿では,テキスト内薬物相乗学習のための新しい設定とモデルを提案する。
特定のがん細胞標的の文脈における10~20の薬物相乗関係の「個人化データセット」を作成した。
私たちの目標は、その文脈で追加の薬物シナジー関係を予測することです。
論文 参考訳(メタデータ) (2023-06-19T17:03:46Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。