Fugu-MT 論文翻訳(概要): Semantically Rich Local Dataset Generation for Explainable AI in Genomics

論文の概要: Semantically Rich Local Dataset Generation for Explainable AI in Genomics

arxiv url: http://arxiv.org/abs/2407.02984v2
Date: Fri, 5 Jul 2024 10:48:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 22:15:07.745182
Title: Semantically Rich Local Dataset Generation for Explainable AI in Genomics
Title（参考訳）: ゲノミクスにおける説明可能なAIのための意味的にリッチな局所データセット生成
Authors: Pedro Barbosa, Rosina Savisaar, Alcides Fonseca,
Abstract要約: ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
参考スコア（独自算出の注目度）: 0.716879432974126
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Black box deep learning models trained on genomic sequences excel at predicting the outcomes of different gene regulatory mechanisms. Therefore, interpreting these models may provide novel insights into the underlying biology, supporting downstream biomedical applications. Due to their complexity, interpretable surrogate models can only be built for local explanations (e.g., a single instance). However, accomplishing this requires generating a dataset in the neighborhood of the input, which must maintain syntactic similarity to the original data while introducing semantic variability in the model's predictions. This task is challenging due to the complex sequence-to-function relationship of DNA. We propose using Genetic Programming to generate datasets by evolving perturbations in sequences that contribute to their semantic diversity. Our custom, domain-guided individual representation effectively constrains syntactic similarity, and we provide two alternative fitness functions that promote diversity with no computational effort. Applied to the RNA splicing domain, our approach quickly achieves good diversity and significantly outperforms a random baseline in exploring the search space, as shown by our proof-of-concept, short RNA sequence. Furthermore, we assess its generalizability and demonstrate scalability to larger sequences, resulting in a ~30% improvement over the baseline.
Abstract（参考訳）: ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。したがって、これらのモデルを解釈することで、下流の生物医学的応用をサポートする基礎となる生物学に関する新たな洞察が得られるかもしれない。その複雑さのため、解釈可能な代理モデルは局所的な説明(例:単一インスタンス)のためにのみ構築できる。しかし、これを実現するには、入力の近傍にデータセットを生成する必要がある。これは、モデルの予測にセマンティック変数を導入しながら、元のデータと構文的類似性を維持する必要がある。この課題はDNAの複雑な配列と機能の関係のため困難である。本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。我々のカスタムドメイン誘導型個人表現は、構文的類似性を効果的に制約し、計算労力なしで多様性を促進する2つの代替フィットネス関数を提供する。本手法はRNAスプライシング領域に適用し, 優れた多様性を実現し, 検索空間を探索する際のランダムなベースラインを著しく上回っている。さらに、その一般化性を評価し、より大きなシーケンスに対するスケーラビリティを実証し、ベースラインよりも約30%改善する。

関連論文リスト

Scalable Single-Cell Gene Expression Generation with Latent Diffusion Models [11.343106383645441]
単一細胞遺伝子発現データに対してスケーラブルな潜伏拡散モデルを導入し、これを scLDM と呼ぶ。観測および摂動単細胞データおよびセルレベルの分類などの下流タスクにおいて,様々な実験において,その優れた性能を示す。
論文参考訳（メタデータ） (2025-11-04T20:44:12Z)
Hyperbolic Genome Embeddings [0.6656737591902598]
我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
論文参考訳（メタデータ） (2025-07-29T10:06:17Z)
Learning Genomic Structure from $k$-mers [2.07180164747172]
コントラスト学習を用いて読み出しデータを解析する手法を提案する。エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
論文参考訳（メタデータ） (2025-05-22T13:46:18Z)
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。 UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-09T16:43:07Z)
Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。 Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-11T06:53:59Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文参考訳（メタデータ） (2024-07-16T14:05:03Z)
Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文参考訳（メタデータ） (2024-06-20T09:44:53Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
Splicing Up Your Predictions with RNA Contrastive Learning [4.35360799431127]
我々は、代替スプライシング遺伝子複製によって生成された機能配列間の類似性を利用して、対照的な学習手法をゲノムデータに拡張する。 RNA半減期やリボソーム負荷予測などの下流タスクにおけるそれらの有用性を検証する。学習された潜在空間の探索は、我々の対照的な目的が意味論的に意味のある表現をもたらすことを示した。
論文参考訳（メタデータ） (2023-10-12T21:51:25Z)
Generalising sequence models for epigenome predictions with tissue and assay embeddings [1.9999259391104391]
組織とアッセイの埋め込みを文脈的ゲノミクスネットワーク(CGN)に組み込むことにより,幅広い実験条件において強い相関性が得られることを示す。本研究は, エピジェネティック・シークエンス・モデル・トレーニングにおける遺伝的変異の影響について, 幅広いエピジェネティック・プロファイルにまたがるアプローチの有効性を示し, 遺伝子変異がエピジェネティック・シークエンス・モデル・トレーニングに与える影響について考察した。
論文参考訳（メタデータ） (2023-08-22T10:34:19Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Modelling Technical and Biological Effects in scRNA-seq data with Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文参考訳（メタデータ） (2022-09-14T15:25:15Z)
Probabilistic Transformer: Modelling Ambiguities and Distributions for RNA Folding and Molecule Design [38.46798525594529]
本稿では,最も成功したディープラーニングモデルの1つであるTransformerを強化するために,階層的な潜在分布を提案する。本研究は,RNAの折り畳みにおける最先端の成果を生かした合成課題に対するアプローチの利点を示し,その特性に基づく分子設計における生成能力を示す。
論文参考訳（メタデータ） (2022-05-27T12:11:38Z)
Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文参考訳（メタデータ） (2022-05-25T17:37:08Z)
Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文参考訳（メタデータ） (2021-10-11T12:48:44Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。