Fugu-MT 論文翻訳(概要): Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics

論文の概要: Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics

arxiv url: http://arxiv.org/abs/2307.06797v1
Date: Thu, 13 Jul 2023 15:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 14:19:11.400173
Title: Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics
Title（参考訳）: 平衡外物理に根ざした高速かつ機能的なデータ生成器
Authors: Alessandra Carbone, Aur\'elien Decelle, Lorenzo Rosset, Beatriz Seoane
Abstract要約: エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
参考スコア（独自算出の注目度）: 62.997667081978825
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this study, we address the challenge of using energy-based models to produce high-quality, label-specific data in complex structured datasets, such as population genetics, RNA or protein sequences data. Traditional training methods encounter difficulties due to inefficient Markov chain Monte Carlo mixing, which affects the diversity of synthetic data and increases generation times. To address these issues, we use a novel training algorithm that exploits non-equilibrium effects. This approach, applied on the Restricted Boltzmann Machine, improves the model's ability to correctly classify samples and generate high-quality synthetic data in only a few sampling steps. The effectiveness of this method is demonstrated by its successful application to four different types of data: handwritten digits, mutations of human genomes classified by continental origin, functionally characterized sequences of an enzyme protein family, and homologous RNA sequences from specific taxonomies.
Abstract（参考訳）: 本研究では,個体群遺伝学,rna,タンパク質配列データなどの複雑な構造化データセットにおいて,エネルギーベースモデルを用いて高品質なラベル特異的なデータを生成することの課題に対処する。非効率なマルコフ連鎖モンテカルロ混合により、従来の訓練手法では、合成データの多様性に影響を与え、生成時間を増加させる。これらの問題に対処するために、非平衡効果を利用する新しいトレーニングアルゴリズムを用いる。このアプローチは制限ボルツマンマシンに適用され、サンプルを正しく分類し、数ステップで高品質な合成データを生成するモデルの能力を向上させる。本手法の有効性は、手書き桁、大陸由来のヒトゲノムの変異、酵素タンパク質ファミリーの機能的特徴配列、特定の分類群からの相同RNA配列の4種類のデータに適用することで実証される。

関連論文リスト

Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation [4.268367038882249]
Genetic Promptは、遺伝的アルゴリズムとLarge Language Models(LLM)を組み合わせて合成データ生成を増強するフレームワークである。提案手法は, 意味的テキスト属性を遺伝子配列として扱い, LLMを利用して交叉・突然変異操作をシミュレートする。以上の結果から, 遺伝的プロンプトは, 広範囲のNLPアプリケーションに対して, 高品質な合成データを生成する有効な方法であることが明らかとなった。
論文参考訳（メタデータ） (2025-09-02T07:35:20Z)
Hyperbolic Genome Embeddings [0.6656737591902598]
我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
論文参考訳（メタデータ） (2025-07-29T10:06:17Z)
Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。 Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-11T06:53:59Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文参考訳（メタデータ） (2024-10-21T03:35:23Z)
Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文参考訳（メタデータ） (2024-07-16T14:05:03Z)
Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文参考訳（メタデータ） (2024-07-03T10:31:30Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文参考訳（メタデータ） (2024-01-25T09:17:19Z)
Exploring The Potential Of GANs In Biological Sequence Analysis [0.966840768820136]
本稿では,GAN(Generative Adversarial Networks)に基づくデータ不均衡問題に対する新しいアプローチを提案する。 GANは、実際のデータとよく似た合成データを生成するために利用される。 3つの異なるシーケンスデータセットを用いて3つの異なる分類タスクを実行する。
論文参考訳（メタデータ） (2023-03-04T13:46:45Z)
Optirank: classification for RNA-Seq data with optimal ranking reference genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文参考訳（メタデータ） (2023-01-11T10:49:06Z)
Mutual Exclusivity Training and Primitive Augmentation to Induce Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文参考訳（メタデータ） (2022-11-28T17:36:41Z)
Using Signal Processing in Tandem With Adapted Mixture Models for Classifying Genomic Signals [16.119729980200955]
本稿では,ガウス混合モデルとタンデムの信号処理を併用して,シーケンスのスペクトル表現を改善する手法を提案する。提案手法は、確立されたベンチマークデータセットに対して、6.06%の精度で類似した最先端の手法より優れている。
論文参考訳（メタデータ） (2022-11-03T06:10:55Z)
Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文参考訳（メタデータ） (2020-09-02T02:50:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。