論文の概要: UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion
- arxiv url: http://arxiv.org/abs/2503.06687v1
- Date: Sun, 09 Mar 2025 16:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:17.926996
- Title: UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion
- Title(参考訳): UniGenX: 自己回帰拡散によるシーケンスと構造の統合生成
- Authors: Gongbo Zhang, Yanting Li, Renqian Luo, Pipi Hu, Zeru Zhao, Lingbo Li, Guoqing Liu, Zun Wang, Ran Bi, Kaiyuan Gao, Liya Guo, Yu Xie, Chang Liu, Jia Zhang, Tian Xie, Robert Pinsler, Claudio Zeni, Ziheng Lu, Yingce Xia, Marwin Segler, Maik Riechert, Li Yuan, Lei Chen, Haiguang Liu, Tao Qin,
- Abstract要約: 既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。
自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
- 参考スコア(独自算出の注目度): 61.690978792873196
- License:
- Abstract: Unified generation of sequence and structure for scientific data (e.g., materials, molecules, proteins) is a critical task. Existing approaches primarily rely on either autoregressive sequence models or diffusion models, each offering distinct advantages and facing notable limitations. Autoregressive models, such as GPT, Llama, and Phi-4, have demonstrated remarkable success in natural language generation and have been extended to multimodal tasks (e.g., image, video, and audio) using advanced encoders like VQ-VAE to represent complex modalities as discrete sequences. However, their direct application to scientific domains is challenging due to the high precision requirements and the diverse nature of scientific data. On the other hand, diffusion models excel at generating high-dimensional scientific data, such as protein, molecule, and material structures, with remarkable accuracy. Yet, their inability to effectively model sequences limits their potential as general-purpose multimodal foundation models. To address these challenges, we propose UniGenX, a unified framework that combines autoregressive next-token prediction with conditional diffusion models. This integration leverages the strengths of autoregressive models to ease the training of conditional diffusion models, while diffusion-based generative heads enhance the precision of autoregressive predictions. We validate the effectiveness of UniGenX on material and small molecule generation tasks, achieving a significant leap in state-of-the-art performance for material crystal structure prediction and establishing new state-of-the-art results for small molecule structure prediction, de novo design, and conditional generation. Notably, UniGenX demonstrates significant improvements, especially in handling long sequences for complex structures, showcasing its efficacy as a versatile tool for scientific data generation.
- Abstract(参考訳): 科学データ(材料、分子、タンパク質など)の配列と構造を統一的に生成することは重要な課題である。
既存のアプローチは主に自己回帰シーケンスモデルか拡散モデルに依存しており、それぞれに異なる利点があり、顕著な制限に直面している。
GPT、Llama、Phi-4といった自動回帰モデルは、自然言語生成において顕著な成功を収めており、VQ-VAEのような高度なエンコーダを使用して、複雑なモダリティを離散シーケンスとして表現するマルチモーダルタスク(例えば、画像、ビデオ、音声)に拡張されている。
しかし、科学的領域への直接的な適用は、高い精度の要求と科学データの多様な性質のために困難である。
一方、拡散モデルはタンパク質、分子、物質構造などの高次元の科学的データを生成するのに優れており、精度は顕著である。
しかし、配列を効果的にモデル化できないことは、汎用マルチモーダル基盤モデルとしての可能性を制限する。
これらの課題に対処するために、自動回帰的次トーケン予測と条件付き拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
この統合は自己回帰モデルの強みを活用して条件付き拡散モデルの訓練を容易にする一方、拡散に基づく生成ヘッドは自己回帰予測の精度を高める。
我々は、UniGenXの材料および小分子生成タスクにおける有効性を検証するとともに、材料結晶構造予測のための最先端性能を飛躍的に向上させ、小分子構造予測、デノボ設計、条件生成のための新しい最先端結果を確立する。
特に、UniGenXは、特に複雑な構造に対する長いシーケンスの扱いにおいて、科学的データ生成のための汎用ツールとしての有効性を示している。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Unified Guidance for Geometry-Conditioned Molecular Generation [41.94578826467316]
非条件拡散モデルの幾何学的ガイダンスを制御するためのフレームワークであるUniGuideを紹介する。
構造ベース,フラグメントベース,リガンドベースの薬物設計などの応用がUniGuideフレームワークでどのように構成されているかを示す。
論文 参考訳(メタデータ) (2025-01-05T12:58:01Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Navigating protein landscapes with a machine-learned transferable
coarse-grained model [29.252004942896875]
同様の予測性能を持つ粗粒度(CG)モデルは、長年にわたる課題である。
ケミカルトランスポータビリティを持つボトムアップCG力場を開発し,新しい配列の分子動力学に利用することができる。
本モデルでは, 折り畳み構造, 中間体, メタスタブル折り畳み型および折り畳み型流域, 内在的に不規則なタンパク質のゆらぎの予測に成功している。
論文 参考訳(メタデータ) (2023-10-27T17:10:23Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。