論文の概要: The Vendiscope: An Algorithmic Microscope For Data Collections
- arxiv url: http://arxiv.org/abs/2502.10828v1
- Date: Sat, 15 Feb 2025 15:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:47.604460
- Title: The Vendiscope: An Algorithmic Microscope For Data Collections
- Title(参考訳): Vendiscope:データ収集のためのアルゴリズム顕微鏡
- Authors: Amey P. Pasarkar, Adji Bousso Dieng,
- Abstract要約: Vendiscopeは、従来の顕微鏡を計算分析に拡張するために設計された最初のアルゴリズム顕微鏡である。
生物学、材料科学、機械学習(ML)にまたがってこれを実証する。
ベンジスコープは、生成モデルにおける記憶のような現象を研究するのに用いられる。
- 参考スコア(独自算出の注目度): 2.992602379681373
- License:
- Abstract: The evolution of microscopy, beginning with its invention in the late 16th century, has continuously enhanced our ability to explore and understand the microscopic world, enabling increasingly detailed observations of structures and phenomena. In parallel, the rise of data-driven science has underscored the need for sophisticated methods to explore and understand the composition of complex data collections. This paper introduces the Vendiscope, the first algorithmic microscope designed to extend traditional microscopy to computational analysis. The Vendiscope leverages the Vendi scores -- a family of differentiable diversity metrics rooted in ecology and quantum mechanics -- and assigns weights to data points based on their contribution to the overall diversity of the collection. These weights enable high-resolution data analysis at scale. We demonstrate this across biology, materials science, and machine learning (ML). We analyzed the $250$ million protein sequences in the protein universe, discovering that over $200$ million are near-duplicates and that AlphaFold fails on proteins with Gene Ontology (GO) functions that contribute most to diversity. Applying the Vendiscope to the Materials Project database led to similar findings: more than $85\%$ of the crystals with formation energy data are near-duplicates and ML models perform poorly on materials that enhance diversity. Additionally, the Vendiscope can be used to study phenomena such as memorization in generative models. We used the Vendiscope to identify memorized training samples from $13$ different generative models and found that the best-performing ones often memorize the training samples that contribute least to diversity. Our findings demonstrate that the Vendiscope can serve as a powerful tool for data-driven science.
- Abstract(参考訳): 16世紀後半に発明された顕微鏡の進化は、顕微鏡の世界を探索し理解する能力を継続的に強化し、構造や現象の詳細な観察を可能にした。
並行して、データ駆動科学の台頭は、複雑なデータコレクションの構成を探索し理解するための洗練された方法の必要性を浮き彫りにした。
本稿では,従来の顕微鏡から計算解析への拡張を目的とした,最初のアルゴリズム顕微鏡であるVendiscopeを紹介する。
Vendiscopeは、生態学と量子力学に根ざした様々な多様性指標であるVendiスコアを活用し、コレクションの全体的な多様性への貢献に基づいて、データポイントに重みを割り当てる。
これらの重みは大規模に高解像度のデータ解析を可能にする。
生物学、材料科学、機械学習(ML)にまたがってこれを実証する。
我々は、タンパク質の宇宙における2億5000万ドルのタンパク質配列を分析し、20億ドル以上がほぼ重複していること、そしてAlphaFoldが多様性に最も寄与する遺伝子オントロジー(GO)機能を持つタンパク質に失敗したことを発見した。
物質プロジェクトデータベースにVendiscopeを適用すると、同様の結果が得られた: 生成エネルギーデータを持つ結晶の85.%以上は、ほぼ重複し、MLモデルは、多様性を高める材料で不十分に機能する。
さらに、ベンディスコープは、生成モデルにおける記憶のような現象を研究するのに使うことができる。
我々はVendiscopeを使って、13ドルの異なる生成モデルから記憶されたトレーニングサンプルを識別し、最も優れたトレーニングサンプルが、多様性に最も寄与しないトレーニングサンプルを記憶していることがわかった。
我々の研究結果は、Vendiscopeがデータ駆動科学の強力なツールであることを示している。
関連論文リスト
- ViTally Consistent: Scaling Biological Representation Learning for Cell Microscopy [3.432992120614117]
細胞顕微鏡データの基盤モデルとしては,これまでで最大である。
従来のViT-L/8 MAEと比較して, 遺伝的摂動の線形分離性は60%向上した。
論文 参考訳(メタデータ) (2024-11-04T20:09:51Z) - Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology [2.7280901660033643]
本研究は、弱教師付き分類器と自己教師付きマスク付きオートエンコーダ(MAE)のスケーリング特性について検討する。
以上の結果から,ViTをベースとしたMAEは,様々なタスクにおいて弱い教師付き分類器よりも優れており,公的なデータベースから得られた既知の生物学的関係を思い出すと,11.5%の相対的な改善が達成されることがわかった。
我々は、異なる数のチャネルと順序の画像を推論時に入力できる新しいチャネルに依存しないMAEアーキテクチャ(CA-MAE)を開発した。
論文 参考訳(メタデータ) (2024-04-16T02:42:06Z) - Masked Autoencoders are Scalable Learners of Cellular Morphology [0.3057210732296065]
本研究は,大規模な顕微鏡データセット上で大規模モデルをトレーニングする際の,自己教師型ディープラーニングアプローチのスケールアップ方法について検討する。
以上の結果から,CNNとViTをベースとしたマスク付きオートエンコーダはともに,教師付きベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T23:11:35Z) - VOLTA: an Environment-Aware Contrastive Cell Representation Learning for
Histopathology [0.3436781233454516]
病理組織像における細胞表現学習のための自己組織化フレームワーク(VOLTA)を提案する。
我々は、世界中の複数の機関から収集されたデータに関する広範な実験にモデルを適用した。
提案フレームワークの有効性を明らかにするため, 卵巣癌および子宮内膜癌にVOLTAを応用した。
論文 参考訳(メタデータ) (2023-03-08T16:35:47Z) - Fast spline detection in high density microscopy data [0.0]
多生物系の顕微鏡的研究において、衝突と重なりの問題は依然として困難である。
そこで,本研究では,一般的なモチーフと重なり合うスプラインの正確な形状軌跡を抽出する,エンドツーエンドの深層学習手法を開発した。
線虫Caenorhabditis elegansの密集実験における使用性の設定と実証を行った。
論文 参考訳(メタデータ) (2023-01-11T13:40:05Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。