論文の概要: Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models
- arxiv url: http://arxiv.org/abs/2412.16247v1
- Date: Fri, 20 Dec 2024 00:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:02:01.393950
- Title: Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models
- Title(参考訳): 辞書学習による科学的発見に向けて:顕微鏡基礎モデルから生物学的概念を抽出する
- Authors: Konstantin Donhauser, Kristina Ulicna, Gemma Elyse Moran, Aditya Ravuri, Kian Kenyon-Dean, Cian Eastwood, Jason Hartford,
- Abstract要約: 辞書学習(DL)は、大規模言語モデルの強力な解釈可能性ツールとして登場した。
本稿では,新しいDLアルゴリズムであるICFL(Iterative Codebook Feature Learning)を提案し,制御データセットからPCAホワイトニングを使用する前処理ステップと組み合わせる。
- 参考スコア(独自算出の注目度): 6.136186137141521
- License:
- Abstract: Dictionary learning (DL) has emerged as a powerful interpretability tool for large language models. By extracting known concepts (e.g., Golden-Gate Bridge) from human-interpretable data (e.g., text), sparse DL can elucidate a model's inner workings. In this work, we ask if DL can also be used to discover unknown concepts from less human-interpretable scientific data (e.g., cell images), ultimately enabling modern approaches to scientific discovery. As a first step, we use DL algorithms to study microscopy foundation models trained on multi-cell image data, where little prior knowledge exists regarding which high-level concepts should arise. We show that sparse dictionaries indeed extract biologically-meaningful concepts such as cell type and genetic perturbation type. We also propose a new DL algorithm, Iterative Codebook Feature Learning~(ICFL), and combine it with a pre-processing step that uses PCA whitening from a control dataset. In our experiments, we demonstrate that both ICFL and PCA improve the selectivity of extracted features compared to TopK sparse autoencoders.
- Abstract(参考訳): 辞書学習(DL)は、大規模言語モデルの強力な解釈可能性ツールとして登場した。
人間の解釈可能なデータ(例えばテキスト)から既知の概念(例えばゴールデンゲートブリッジ)を抽出することにより、スパースDLはモデルの内部動作を解明することができる。
本研究では、DLが、人間の理解できない科学的データ(例えば細胞画像)から未知の概念を発見できるかどうかを問うとともに、最終的に科学的発見への現代的なアプローチを可能にする。
最初のステップとして、DLアルゴリズムを用いて、マルチセル画像データに基づいてトレーニングされた顕微鏡基礎モデルを研究する。
スパース辞書は, 細胞型や遺伝的摂動型といった生物学的に意味のある概念を抽出している。
また、新しいDLアルゴリズム、Iterative Codebook Feature Learning~(ICFL)を提案し、制御データセットからPCAホワイトニングを使用する前処理ステップと組み合わせる。
実験の結果,ICFLとPCAはTopKのスパースオートエンコーダと比較して抽出された特徴の選択性を向上させることがわかった。
関連論文リスト
- Building, Reusing, and Generalizing Abstract Representations from Concrete Sequences [51.965994405124455]
人間は異なるシーケンスで抽象パターンを学習し、無関係な詳細をフィルタリングする。
多くのシーケンス学習モデルには抽象化能力がないため、メモリの非効率性や転送の低さにつながる。
非パラメトリック階層型変数学習モデル(HVM)を導入し、シーケンスからチャンクを学習し、文脈的に類似したチャンクを変数として抽象化する。
論文 参考訳(メタデータ) (2024-10-27T18:13:07Z) - Transparency at the Source: Evaluating and Interpreting Language Models
With Access to the True Distribution [4.01799362940916]
人工的な言語のようなデータを用いて、ニューラルネットワークモデルのトレーニング、評価、解釈を行う。
データは、巨大な自然言語コーパスから派生した巨大な確率文法を用いて生成される。
基礎となる真の情報源にアクセスすることで、異なる単語のクラス間の動的学習における顕著な違いと結果が示される。
論文 参考訳(メタデータ) (2023-10-23T12:03:01Z) - Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Lattice-preserving $\mathcal{ALC}$ ontology embeddings with saturation [50.05281461410368]
OWL表現の埋め込みを生成するため,順序保存型埋め込み法を提案する。
本手法は,いくつかの知識ベース完了タスクにおいて,最先端の組込み手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-11T22:27:51Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Improving Biomedical Pretrained Language Models with Knowledge [22.61591249168801]
UMLS知識基盤の知識を明示的に活用したバイオメディカルプリトレーニング言語モデル「KeBioLM」を提案します。
具体的には、PubMedアブストラクトからエンティティを抽出し、UMLSにリンクします。
次に、まずテキストのみのエンコーディング層を適用してエンティティ表現を学習し、集合エンティティ表現にテキストエンティティ融合エンコーディングを適用するナレッジアウェア言語モデルを訓練する。
論文 参考訳(メタデータ) (2021-04-21T03:57:26Z) - Latent Feature Representation via Unsupervised Learning for Pattern
Discovery in Massive Electron Microscopy Image Volumes [4.278591555984395]
特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。
動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:14:19Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。