論文の概要: Accelerated Learning on Large Scale Screens using Generative Library Models
- arxiv url: http://arxiv.org/abs/2510.16612v1
- Date: Sat, 18 Oct 2025 18:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.064881
- Title: Accelerated Learning on Large Scale Screens using Generative Library Models
- Title(参考訳): 生成ライブラリモデルを用いた大規模画面上での高速化学習
- Authors: Eli N. Weinstein, Andrei Slabodkin, Mattia G. Gollub, Elizabeth B. Wood,
- Abstract要約: データ生成とモデルトレーニングのために,高スループット画面を最適化するアルゴリズムを導入する。
我々は、データセットのサイズが測定とシークエンシングのコストによって制限される大規模体制に焦点を当てる。
- 参考スコア(独自算出の注目度): 4.059849656394191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Biological machine learning is often bottlenecked by a lack of scaled data. One promising route to relieving data bottlenecks is through high throughput screens, which can experimentally test the activity of $10^6-10^{12}$ protein sequences in parallel. In this article, we introduce algorithms to optimize high throughput screens for data creation and model training. We focus on the large scale regime, where dataset sizes are limited by the cost of measurement and sequencing. We show that when active sequences are rare, we maximize information gain if we only collect positive examples of active sequences, i.e. $x$ with $y>0$. We can correct for the missing negative examples using a generative model of the library, producing a consistent and efficient estimate of the true $p(y | x)$. We demonstrate this approach in simulation and on a large scale screen of antibodies. Overall, co-design of experiments and inference lets us accelerate learning dramatically.
- Abstract(参考訳): 生物学的機械学習は、しばしばスケールしたデータの欠如によってボトルネックとなる。
データボトルネックを緩和するための有望な道の1つは、高いスループットのスクリーンを通じて、タンパク質配列10^6-10^{12}$の活性を並列に実験的にテストできることである。
本稿では,データ生成とモデルトレーニングのために高スループット画面を最適化するアルゴリズムを紹介する。
我々は、データセットのサイズが測定とシークエンシングのコストによって制限される大規模体制に焦点を当てる。
アクティブシーケンスが稀な場合、アクティブシーケンスの正の例(例えば$x$と$y>0$)のみを収集すれば、情報ゲインが最大になることを示す。
ライブラリの生成モデルを用いて、欠落した負の例を正し、真$p(y | x)$の一貫性と効率的な見積もりを生成する。
本手法をシミュレーションおよび大規模抗体スクリーン上で実証する。
全体として、実験と推論の共同設計は、学習を劇的に加速させます。
関連論文リスト
- Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Scaling Up Diffusion and Flow-based XGBoost Models [5.944645679491607]
本稿では,XGBoostを拡散・流れマッチングモデルにおける関数近似器として利用するための最近の提案について検討する。
より優れた実装では、以前よりも370倍大きなデータセットにスケールできる。
我々は,Fast Calorimeter Simulation Challengeの一環として,大規模科学的データセットについて報告する。
論文 参考訳(メタデータ) (2024-08-28T18:00:00Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Generative Active Learning for Long-tailed Instance Segmentation [55.66158205855948]
キャッシュ勾配に基づいて生成したデータの寄与を推定する新しいアルゴリズムであるBSGALを提案する。
実験により,BSGALはベースラインアプローチより優れ,長い尾のセグメンテーションの性能が効果的に向上することが示された。
論文 参考訳(メタデータ) (2024-06-04T15:57:43Z) - Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and
Luck [35.6883212537938]
オフラインスパースパリティ学習は,多層パーセプトロンの勾配に基づくトレーニングにおいて,統計的クエリの下限を許容する教師付き分類問題である。
理論上, 実験上, 疎初期化とネットワーク幅の増大がサンプル効率を著しく向上させることを示す。
また,合成スパースパリティタスクは,軸方向の特徴学習を必要とする現実的な問題のプロキシとして有用であることを示す。
論文 参考訳(メタデータ) (2023-09-07T15:52:48Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。