論文の概要: Towards Open-Ended Visual Scientific Discovery with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2511.17735v1
- Date: Fri, 21 Nov 2025 19:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.387885
- Title: Towards Open-Ended Visual Scientific Discovery with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによるオープンエンディング型視覚科学的発見を目指して
- Authors: Samuel Stevens, Jacob Beattie, Tanya Berger-Wolf, Yu Su,
- Abstract要約: スパースオートエンコーダが基礎モデル表現からオープンな特徴発見を可能にするかどうかを問う。
生態画像に適用すると、同じ手順がセグメンテーションや部分ラベルにアクセスせずに微細な解剖学的構造を表面化する。
この結果から, スパース分解は, 科学基盤モデルが何を学んだかを調べるための実践的な手段となることが示唆された。
- 参考スコア(独自算出の注目度): 11.190791003373322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific archives now contain hundreds of petabytes of data across genomics, ecology, climate, and molecular biology that could reveal undiscovered patterns if systematically analyzed at scale. Large-scale, weakly-supervised datasets in language and vision have driven the development of foundation models whose internal representations encode structure (patterns, co-occurrences and statistical regularities) beyond their training objectives. Most existing methods extract structure only for pre-specified targets; they excel at confirmation but do not support open-ended discovery of unknown patterns. We ask whether sparse autoencoders (SAEs) can enable open-ended feature discovery from foundation model representations. We evaluate this question in controlled rediscovery studies, where the learned SAE features are tested for alignment with semantic concepts on a standard segmentation benchmark and compared against strong label-free alternatives on concept-alignment metrics. Applied to ecological imagery, the same procedure surfaces fine-grained anatomical structure without access to segmentation or part labels, providing a scientific case study with ground-truth validation. While our experiments focus on vision with an ecology case study, the method is domain-agnostic and applicable to models in other sciences (e.g., proteins, genomics, weather). Our results indicate that sparse decomposition provides a practical instrument for exploring what scientific foundation models have learned, an important prerequisite for moving from confirmation to genuine discovery.
- Abstract(参考訳): 科学アーカイブには、ゲノム学、生態学、気候学、分子生物学にまたがる数百ペタバイトのデータが含まれています。
言語と視覚における大規模で弱い教師付きデータセットは、内部表現がトレーニング目的を超えて構造(パターン、共起、統計正則)を符号化する基盤モデルの開発を推進してきた。
既存のほとんどの手法は、事前に特定されたターゲットに対してのみ構造を抽出するが、確認時に優れているが、未知のパターンのオープンな発見はサポートしていない。
スパースオートエンコーダ(SAE)が基礎モデル表現からオープンな特徴発見を可能にするかどうかを問う。
そこでは,標準セグメンテーションベンチマークのセグメンテーションにおけるセグメンテーション概念との整合性を検証し,セグメンテーションメトリクスのラベルなしの強力な代替品と比較した。
生態学的な画像に適用すると、同じ手順がセグメンテーションや部分ラベルへのアクセスなしに微細な解剖学的構造を表面化し、地上構造検証による科学的ケーススタディを提供する。
我々の実験は、生態学のケーススタディによる視覚に焦点を当てているが、この方法はドメインに依存しず、他の科学(タンパク質、ゲノム学、気象学など)のモデルに適用できる。
この結果から, スパース分解は, 科学基盤モデルが学んだこと, 確実性から真の発見へと移行する上で重要な前提条件を探索するための実用的な手段であることが示唆された。
関連論文リスト
- Deep Learning in Astrophysics [0.2700171473617699]
深層学習は天文学の様々な視点を生み出し、このレビューを動機づける支持者と懐疑主義者の間で議論が続いている。
ニューラルネットワークが古典的な統計を補完し、現代のサーベイのためのデータ分析ツールキットを拡張する方法について検討する。
このレビューでは、ディープラーニングがアーキテクチャ設計を通じてドメイン知識をどのように組み入れているかを示す。
論文 参考訳(メタデータ) (2025-10-12T17:31:46Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Latent Feature Representation via Unsupervised Learning for Pattern
Discovery in Massive Electron Microscopy Image Volumes [4.278591555984395]
特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。
動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:14:19Z) - Characterizing the Latent Space of Molecular Deep Generative Models with
Persistent Homology Metrics [21.95240820041655]
変分オート(VAE)は、エンコーダとデコーダのネットワークペアをトレーニングデータ分散の再構築のために訓練する生成モデルである。
本研究では, 深部生成モデルの潜伏空間が, 構造的および化学的特徴をエンコードできるかどうかを計測する手法を提案する。
論文 参考訳(メタデータ) (2020-10-18T13:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。